Part 1. 关于数据集

  • 数据集简介

此数据集是YouTube平台上Trending List的每日统计信息。

时间跨度为2017年11月14日至2018年6月14日。包括了美国、英国、德国、加拿大、法国等国家和地区,每个地区一个文件,我选取了美国的数据。

“Trending List”的YouTube官方中文翻译是“时下流行”,可以理解为热门视频的榜单。类似微博的热搜机制,榜单内容在同一地区是相同的,不根据用户个人的喜好而做个性化推荐。但Trending List并不仅根据播放量等单一指标排序,YouTube综合了多种因素衡量用户对视频的互动热度(包括播放量、分享数、评论和点赞等)。

Trending中译:时下流行
  • 数据来源

通过Google数据搜索引擎,在Kaggle上找到的数据:

  • 数据内容

数据集为csv格式,文件大小59.8M。

数据共计16个字段,40726条。

具体字段如下:

  1. video_id(视频ID)
  2. trending_date(推荐日期)
  3. title(标题)
  4. channel_title(频道标题)
  5. category_id(类型id)
  6. publish_time(发布时间)
  7. tags(标签)
  8. views(观看数)
  9. likes(点赞数)
  10. dislikes(不喜欢数)
  11. comment_count(评论数)
  12. thumbnail_link(缩略图链接)
  13. comments_disabled(是否允许评论)
  14. ratings_disabled(是否允许打分)
  15. video_error_or_removed(视频是否损坏或移除)
  16. description(描述)


Part 2. 关于YouTube

YouTube是世界著名的视频分享网站,总部位于美国加州。现在是Google的子公司之一。

它提供各类个人用户和企业媒体的上传视频直播。用户可以上传,查看,评分,分享,收藏,评论视频并订阅其他用户。

视频内容包括视频剪辑、综艺节目剪辑、纪录片、音乐视频、录音、直播等等。YouTube上的大部分内容都是由个人上传的,也有包括CBS,BBC等在内的媒体公司提供部分内容,作为YouTube合作伙伴计划的一部分。

其主要营收方式是从Google AdSense获得广告收入,根据网站内容和受众群体个性化呈现广告。其绝大多数视频都可以免费观看,同时也有部分基于订阅的付费频道,以及YouTube Premium会员,提供对网站的无广告访问权限。

截至2017年2月,每分钟上传到YouTube的内容超过400小时,每天在YouTube上观看的内容达10亿小时。据Alexa Internet报道,截至2018年8月,该网站被评为全球第二大热门网站。


  • YouTube和国内的哪些产品类似?

乍一看似乎YouTube是典型的视频网站,很自然地会联想到爱奇艺、优酷、搜狐视频等国内的知名视频网站。但又总觉得这样类比有一种挥之不去的违和感。

我们来分析一下YouTube的视频来源,实际上大多是个人用户上传,也就是UGC(User-generated Content,用户生产内容)模式,而上述的三大视频网站则是PGC(Professional Generated Content,专业人士产生内容),与国外的Netflix更类似。说白了就是,我们用爱奇艺等多是追剧看综艺,而YouTube则带有新媒体社交属性。

这似乎与抖音、快手、美拍、火山、头条等国内短视频APP更有对应关系,不过Youtube的视频时长更长,视频种类更广,用户群体也更多样化。这些短视频则多有自己的垂直领域,比如提到快手我们就忍不住会联想到“土味”,美拍的定位则是“美”为核心的生态圈。

我觉得YouTube倒是更像去掉了二次元标签的Bilibili,或者应该反过来说,是B站借鉴了一些YouTube的模式。同样兼具了个人用户视频、剧集、直播等不同长度的视频形式,都采用了首页、热门、频道等多种推荐方式,都支持对用户的订阅等等,连营收方式也很相近。


Part 3. 提出问题

  • 描述统计

1、利用极值可以解决诸如以下的问题:

Trending榜单中——

  • 哪些视频和频道被收录热门榜单(Trending List)天数最多?
  • 哪类视频播放量最高/最低?
  • 哪类视频评论率最高/最低?
  • 哪类视频的点赞率最高/最低?
  • 热门榜单(Trending List)中标题长度多少词的视频最多?

……

2、利用箱型图可以描述不同类别的总体情况:

各类视频的观看数、点赞数、评论数的总体情况

3、利用正态分布可以:

得知观看数、点赞数、不喜欢数、评论数等分别是否符合正态分布,进而可以再验证它们之间是否存在线性相关(Pairs plot 矩阵散点图、协方差矩阵及其相关系数)


  • 业务问题

1.哪些因素会影响YouTube视频的受欢迎程度?是如何影响的?

2.用户最感兴趣的是什么类别的视频?

3.Trending榜单上的视频通常能留存多少天?

4.视频的发布日期和被推荐日期之间是否存在某种关系?

5.视频的标签数越多越好么?视频描述越详细越好么?

6.是否存在视频发布的黄金时间(每月/每周中是否存在周期性的高热度)?


  • 重要字段
  • trending_date(推荐日期)
  • publish_time(发布时间)

2.内容类型:

  • channel_title(频道)
  • category_id(类型id)

3.互动:

  • views(观看数)
  • likes(点赞数)
  • dislikes(不喜欢数)
  • comment_count(评论数)

本文为该数据集和业务背景的介绍,后续完整的分析过程详见我的另一篇文章: