本文主要是练习使用 mysql 进行数据分析,结合 excel 进行可视化分析,数据来源为阿里云天池的淘宝用户数据集,本数据集(UserBehavior.csv)包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
字段解释为:
注意到用户行为类型有四种,分别是:
关于数据集的大小说明:
由于数据集太过庞大,本人电脑可能不堪重负,用 python 读取发现有十亿条数据,用 mysql 载入也太费时间(导入一个小时才导入了几百万条),因此本文使用部分数据进行分析。
发现并没有缺失值,总共有3694900条数据
发现有两行数据是重复的,因此删除这两行数据。
观察数据发现Timestamp字段为时间戳,并非传统的时间日期,需要对这一字段进行处理。
新增 日期date 和 时间time 字段
利用 from_unixtime 函数将 日期 和 时间 从时间戳中提取出来,这一过程时间很长,可能需要几分钟,大家可以喝口水稍等一会儿 😃😃😃 处理好了!!!(上一步我并没有删除重复值) 😦
此数据集中存在的离群值可能是日期时间不在我们研究的范围内,我们研究的时间范围是2017年11月25日至2017年12月3日之间,因此在这之外的均属于离群值
因此,删除这1870行数据,
删除完成,数据集已经处理完毕,最终数据集为3693030行数据。
类似于 用户漏斗分析 首先创建一个新视图,
结果如下: 由运行结果可以看出,用户点击量、加购、收藏、购买占比分别为89.53%、5.57%、2.89%、2.00%,从用户浏览到用户购买的转化率仅仅有2.00%,所以我们要对如此低的转化率进行分析。而2.00%只是整体的从用户开始浏览到下单成功的转化率,一般用户来到商品页面可能会有以下几个可能的行为路径:浏览-购买、浏览-加购-购买、浏览-收藏-购买、浏览-加购并收藏-购买、浏览-流失,那么我们就从这几个方面进行拆解,运用漏斗分析方法分析找出具体哪种路径的哪个环节出了问题,造成整体转化率低。 根据上一阶段比例,可以看出从 浏览-购物车 仅占比6.22%,从 加购-收藏 占比为51.91%,从收藏-购买占比为69.28%。
计算各个阶段的转化率 创建视图 根据用户和商品计算出 四种行为 的数量
计算各个阶段的数量
从计算结果可以看出,用户直接购买的转化率为1.1%,加购后购买的转化率为10.58%,收藏后购买的转化率为8.6%,加购并收藏后购买的转化率为7.31%,很明显,用户在加购、收藏后购买的转化率比浏览之后直接购买的转化率高的多,针对这种情况,商家店铺可以从优化产品宣传介绍页面、鼓励用户收藏加购的优惠活动、限时优惠活动等营销手段方面促进用户加购收藏行为,从而一定程度上提升购买转化率。
另外,浏览量很大,但是有购买行动的却是非常少,大量用户流失,从浏览到直接购买、加购、收藏、加购并收藏的转化率都非常低,也许是用户在浏览过程中没有找到喜欢的,对此,可以针对不同用户的喜好,精准推荐顾客喜欢的比较热销的一些产品,从而促进转化。
针对平台问题,运用假设分析方法,假设:用户推荐机制不合理,平台推荐商品不是用户喜欢的,造成转化率低。
通过分析高浏览量商品和高购买量商品是否相关,如果是,则假设不成立,如果不是,则假设成立;
浏览量前10的商品类:
购买量前10的商品类:
由结果可以看出,高点击量不一定高购买量
再细分到每个商品分析; 分析浏览量前10的商品的购买次数
接着分析购买量前10的商品的浏览量:
分析结果,点击量高的商品购买量却很低,几乎没有,意味着高流量商品最后转化率很低;而购买量高的商品浏览量并不是很高,而且没有点击量前10的商品,即高购买量并没有是由高浏览量带来;
结论:平台的推荐机制不合理,给了高流量的商品最后并没有带来转化,没有带来效益,最后造成抓化率低。应该把流量推给购买量高的商品类和具体商品,如商品类目2735466、1464116,商品3122135、2964774等。
转化率低原因分析总结:
1、优化平台推荐机制,把更多流量给到购买量高的商品,提升转化率;
2、针对大量流失用户,通过积分会员制、店铺页面优化、更精准用户推荐等措施降低流失率;
3、引导加购、收藏,可通过限时优惠活动、加购收藏后享受优惠等活动间接提高用户购买转化率;
根据不同日期对用户行为进行分析 假设1:用户在周末购买量会增加;
利用excel进行可视化分析 从图标可以看出,在周六、周日用户点击量、加购量、收藏量、购买量均有小幅增加,说明假设成立。但是由于周期较短,本案例数据仅仅有一周数据可供分析,所以结果有待考量。
假设2:用户在一天中晚上时间活跃度上升;
由用户活跃可视化图可以看出,用户在一天中零点到4点时段活跃快速下降,从4点到10点逐步上升,10点到18点基本平稳,从18点到22点活跃度急剧上升,达到最高。所以用户在晚上的时段确实更活跃,假设成立。在这个时段可以加大商品推荐和促销活动,从而提高转化率。
RFM是三个指标缩写,分别为最近一次消费时间间隔Recency,消费频率Frequency,消费金额Monetary,往往通过这3个指标对用户进行价值分类。
R=当前时间-最近一次购买时间
F=在分析周期内购买的次数
M=在分析周期内用户消费额
本文由于没有用户消费相关数据,所以不作分析,接下来对R、F值进行计算:
给R、F值打分(具体公司分析业务可根据业务情况制定打分标准):
接下来对上述结果进行打分:
计算 R 和 F 的均值
RFM用户价值分类规则如下: 找出不同价值用户的人数:
结论:
对于重要价值用户,消费频率高且最近消费距离现在时间短,需要给其提供VIP服务;
对于占比较大的重要发展用户,其消费频率低,但最近消费距离现在时间较短,想办法提高其消费频率;
对于重要保持用户,最近消费距离现在时间较远,也就是R值低,但是消费频次高,这样的用户,是一段时间没来的忠实客户,可以采取邮件推送、APP推送提醒、促销活动时短信提醒等方式主动和他们保持联系,提高复购率;
对于占比较大的重要挽留用户,最近消费时间距离现在较远、消费频率低,这种用户有即将流失的危险,需要主动联系用户,调查清楚哪里出了问题,并想办法挽回;
以上就是本篇文章【使用MySQL进行数据分析——以淘宝用户数据为例】的全部内容了,欢迎阅览 ! 文章地址:http://dgaty.xhstdz.com/quote/3445.html 栏目首页 相关文章 动态 同类文章 热门文章 网站地图 返回首页 物流园资讯移动站 http://dgaty.xhstdz.com/mobile/ , 查看更多