1)熟悉数据集的目的
任何数据集本质都是数字的集合,这一系列的数字,对于不同对象所代表的含义完全不同。数据本身没有过多价值,对数据处理后使其能够在特定维度下揭示潜在信息,才是其价值的体现。
综上,我们需要熟悉数据集,不同的数据集对应不同的处理方式,所在行业、指定对象、行为特征、数据维度等特有“标签”可以帮助我们更好的认识业务流程并将数据集解剖至需要的维度。
2)数据集介绍
在一、开启数据分析之路中,数据来自阿里巴巴天池,数据内容为天猫淘宝购买婴儿商品的用户数据集。数据集包括两个excel文件。
- 表1为用户购买行为相关信息,共7个字段;表2为用户相关信息,共3个字段;这两张表为用户id的不同维度信息。
- 具体字段含义:
user_id:用户id 以此字段区别不同用户
auction_id:购买行为编号 将用户购买行为进行唯一标识,区别不同的购买行为编号
cat_id:商品种类 将商品种类数字化,以编号区别不同商品种类,作为 商品种类筛选依据
cat1:商品类别 以编号区别不同商品类别,作为 商品类别筛选依据
property:商品属性 以编号区别不同商品属性,作为 商品属性筛选依据
buy_mount:购买数量 用户单次购买产品数量计数
day:购买时间 购买行为所对应日期
birthday:出生日期 婴儿对应出生日期,可以确定其年龄(后期转化)
gender:性别 用数字0和1标识婴儿性别,0 代表男性,1代表女性
3)数据处理
为了方便初期的学习和理解,将英文转换为中文字段。
数据集将所有字段信息都转化为数字便于统计,商品种类、商品类别、商品属性字段为方便后期图表化展示,也可转换为对应中文字段;出生日期字段可以衍生出年龄字段。
4)了解业务流程
对相关网站进行了操作,重新确认业务流程。
5)你想从该数据集中分析哪些业务问题?
- 用户产品需求情况及差异:不同年龄段、不同性别用户情况
- 不同产品用户黏性情况:用户复购情况及间隔周期,不同年龄段、不同性别用户情况
- 如何定义受欢迎产品:①销量排名②平均单次购买数量③用户广度④用户黏性情况
- 受欢迎产品都具有哪些属性
- 交易量情况:一年中哪些时间段是交易高峰期,月度交易量情况,一次购买2件以上产品时间分布情况
- 用户行为分析:用户首次购买倾向一件还是多件产品,复购是否更加倾向购买多件产品
6)你觉得哪些字段有助于你解决这些问题?
- 用户产品需求情况及差异:商品种类和以及下钻商品类别字段可以确定分布占比情况,出生日期和性别字段可以作为筛选依据确认不同年龄段、不同性别用户情况。
- 不同产品用户黏性情况:以商品种类、商品类别字段为分类,用户ID和购买ID字段计数可以计算复购率,复购用户购买时间差可计算出间隔周期,出生日期和性别字段可以作为筛选依据确认不同年龄段、不同性别用户情况。
- 如何定义受欢迎产品:此4项属性可以通过加权评分得出最终排名情况。销量排名用商品类别的购买数量求和表达;平均单次购买数量用商品类别的购买数量求和除以用户ID数量得出;用户广度可以通过购买行为编号求和除以用户ID求和得出;用户粘度由2可以得出。
- 受欢迎产品都具有哪些属性:可以通过将商品属性字段进行处理后,将里面的信息单独填充至多个单元格,使用图表化显示其属性分布情况。
- 交易量情况:购买时间和购买数量字段相结合,使用图表气泡图等图形化确认分布情况。
- 用户行为分析:使用用户ID和购买ID字段筛选复购用户,用户ID和购买数量相结合确认情况。
7)你想从该数据集中得到哪些描述统计信息?
- 商品销量:总销量、单月销量情况
- 哪一年龄段购买数量频繁?哪种性别的婴儿购买商品的销量高
- 通过购买商品的数量判断哪些是核心用户
- 某一时间段内哪种类别购买用户多,哪些商品种类购买量多