1)熟悉数据集的目的

任何数据集本质都是数字的集合,这一系列的数字,对于不同对象所代表的含义完全不同。数据本身没有过多价值,对数据处理后使其能够在特定维度下揭示潜在信息,才是其价值的体现。

综上,我们需要熟悉数据集,不同的数据集对应不同的处理方式,所在行业、指定对象、行为特征、数据维度等特有“标签”可以帮助我们更好的认识业务流程并将数据集解剖至需要的维度。

2)数据集介绍

在一、开启数据分析之路中,数据来自阿里巴巴天池,数据内容为天猫淘宝购买婴儿商品的用户数据集。数据集包括两个excel文件。

  • 表1为用户购买行为相关信息,共7个字段;表2为用户相关信息,共3个字段;这两张表为用户id的不同维度信息。
  • 具体字段含义:

user_id:用户id 以此字段区别不同用户

auction_id:购买行为编号 将用户购买行为进行唯一标识,区别不同的购买行为编号

cat_id:商品种类 将商品种类数字化,以编号区别不同商品种类,作为 商品种类筛选依据

cat1:商品类别 以编号区别不同商品类别,作为 商品类别筛选依据

property:商品属性 以编号区别不同商品属性,作为 商品属性筛选依据

buy_mount:购买数量 用户单次购买产品数量计数

day:购买时间 购买行为所对应日期

birthday:出生日期 婴儿对应出生日期,可以确定其年龄(后期转化)

gender:性别 用数字0和1标识婴儿性别,0 代表男性,1代表女性

3)数据处理

为了方便初期的学习和理解,将英文转换为中文字段。

数据集将所有字段信息都转化为数字便于统计,商品种类商品类别商品属性字段为方便后期图表化展示,也可转换为对应中文字段;出生日期字段可以衍生出年龄字段。

4)了解业务流程

对相关网站进行了操作,重新确认业务流程。

业务流程

5)你想从该数据集中分析哪些业务问题?

  1. 用户产品需求情况及差异:不同年龄段、不同性别用户情况
  2. 不同产品用户黏性情况:用户复购情况及间隔周期,不同年龄段、不同性别用户情况
  3. 如何定义受欢迎产品:①销量排名②平均单次购买数量③用户广度④用户黏性情况
  4. 受欢迎产品都具有哪些属性
  5. 交易量情况:一年中哪些时间段是交易高峰期,月度交易量情况,一次购买2件以上产品时间分布情况
  6. 用户行为分析:用户首次购买倾向一件还是多件产品,复购是否更加倾向购买多件产品

6)你觉得哪些字段有助于你解决这些问题?

  1. 用户产品需求情况及差异:商品种类和以及下钻商品类别字段可以确定分布占比情况,出生日期性别字段可以作为筛选依据确认不同年龄段、不同性别用户情况。
  2. 不同产品用户黏性情况:以商品种类商品类别字段为分类,用户ID购买ID字段计数可以计算复购率,复购用户购买时间差可计算出间隔周期,出生日期性别字段可以作为筛选依据确认不同年龄段、不同性别用户情况。
  3. 如何定义受欢迎产品:此4项属性可以通过加权评分得出最终排名情况。销量排名用商品类别购买数量求和表达;平均单次购买数量用商品类别购买数量求和除以用户ID数量得出;用户广度可以通过购买行为编号求和除以用户ID求和得出;用户粘度由2可以得出。
  4. 受欢迎产品都具有哪些属性:可以通过将商品属性字段进行处理后,将里面的信息单独填充至多个单元格,使用图表化显示其属性分布情况。
  5. 交易量情况:购买时间购买数量字段相结合,使用图表气泡图等图形化确认分布情况。
  6. 用户行为分析:使用用户ID购买ID字段筛选复购用户,用户ID购买数量相结合确认情况。

7)你想从该数据集中得到哪些描述统计信息?

  • 商品销量:总销量、单月销量情况
  • 哪一年龄段购买数量频繁?哪种性别的婴儿购买商品的销量高
  • 通过购买商品的数量判断哪些是核心用户
  • 某一时间段内哪种类别购买用户多,哪些商品种类购买量多