Part 1. 关于数据集
- 数据集简介
此数据集是YouTube平台上Trending List的每日统计信息。
时间跨度为2017年11月14日至2018年6月14日。包括了美国、英国、德国、加拿大、法国等国家和地区,每个地区一个文件,我选取了美国的数据。
“Trending List”的YouTube官方中文翻译是“时下流行”,可以理解为热门视频的榜单。类似微博的热搜机制,榜单内容在同一地区是相同的,不根据用户个人的喜好而做个性化推荐。但Trending List并不仅根据播放量等单一指标排序,YouTube综合了多种因素衡量用户对视频的互动热度(包括播放量、分享数、评论和点赞等)。
- 数据来源
通过Google数据搜索引擎,在Kaggle上找到的数据:
- 数据内容
数据集为csv格式,文件大小59.8M。
数据共计16个字段,40726条。
具体字段如下:
- video_id(视频ID)
- trending_date(推荐日期)
- title(标题)
- channel_title(频道标题)
- category_id(类型id)
- publish_time(发布时间)
- tags(标签)
- views(观看数)
- likes(点赞数)
- dislikes(不喜欢数)
- comment_count(评论数)
- thumbnail_link(缩略图链接)
- comments_disabled(是否允许评论)
- ratings_disabled(是否允许打分)
- video_error_or_removed(视频是否损坏或移除)
- description(描述)
Part 2. 关于YouTube
YouTube是世界著名的视频分享网站,总部位于美国加州。现在是Google的子公司之一。
它提供各类个人用户和企业媒体的上传视频及直播。用户可以上传,查看,评分,分享,收藏,评论视频并订阅其他用户。
视频内容包括视频剪辑、综艺节目剪辑、纪录片、音乐视频、录音、直播等等。YouTube上的大部分内容都是由个人上传的,也有包括CBS,BBC等在内的媒体公司提供部分内容,作为YouTube合作伙伴计划的一部分。
其主要营收方式是从Google AdSense获得广告收入,根据网站内容和受众群体个性化呈现广告。其绝大多数视频都可以免费观看,同时也有部分基于订阅的付费频道,以及YouTube Premium会员,提供对网站的无广告访问权限。
截至2017年2月,每分钟上传到YouTube的内容超过400小时,每天在YouTube上观看的内容达10亿小时。据Alexa Internet报道,截至2018年8月,该网站被评为全球第二大热门网站。
- YouTube和国内的哪些产品类似?
乍一看似乎YouTube是典型的视频网站,很自然地会联想到爱奇艺、优酷、搜狐视频等国内的知名视频网站。但又总觉得这样类比有一种挥之不去的违和感。
我们来分析一下YouTube的视频来源,实际上大多是个人用户上传,也就是UGC(User-generated Content,用户生产内容)模式,而上述的三大视频网站则是PGC(Professional Generated Content,专业人士产生内容),与国外的Netflix更类似。说白了就是,我们用爱奇艺等多是追剧看综艺,而YouTube则带有新媒体和社交属性。
这似乎与抖音、快手、美拍、火山、头条等国内短视频APP更有对应关系,不过Youtube的视频时长更长,视频种类更广,用户群体也更多样化。这些短视频则多有自己的垂直领域,比如提到快手我们就忍不住会联想到“土味”,美拍的定位则是“美”为核心的生态圈。
我觉得YouTube倒是更像去掉了二次元标签的Bilibili,或者应该反过来说,是B站借鉴了一些YouTube的模式。同样兼具了个人用户视频、剧集、直播等不同长度的视频形式,都采用了首页、热门、频道等多种推荐方式,都支持对用户的订阅等等,连营收方式也很相近。
Part 3. 提出问题
- 描述统计
1、利用极值可以解决诸如以下的问题:
Trending榜单中——
- 哪些视频和频道被收录热门榜单(Trending List)天数最多?
- 哪类视频播放量最高/最低?
- 哪类视频评论率最高/最低?
- 哪类视频的点赞率最高/最低?
- 热门榜单(Trending List)中标题长度多少词的视频最多?
……
2、利用箱型图可以描述不同类别的总体情况:
各类视频的观看数、点赞数、评论数的总体情况
3、利用正态分布可以:
得知观看数、点赞数、不喜欢数、评论数等分别是否符合正态分布,进而可以再验证它们之间是否存在线性相关(Pairs plot 矩阵散点图、协方差矩阵及其相关系数)
- 业务问题
1.哪些因素会影响YouTube视频的受欢迎程度?是如何影响的?
2.用户最感兴趣的是什么类别的视频?
3.Trending榜单上的视频通常能留存多少天?
4.视频的发布日期和被推荐日期之间是否存在某种关系?
5.视频的标签数越多越好么?视频描述越详细越好么?
6.是否存在视频发布的黄金时间(每月/每周中是否存在周期性的高热度)?
- 重要字段
- trending_date(推荐日期)
- publish_time(发布时间)
2.内容类型:
- channel_title(频道)
- category_id(类型id)
3.互动:
- views(观看数)
- likes(点赞数)
- dislikes(不喜欢数)
- comment_count(评论数)
本文为该数据集和业务背景的介绍,后续完整的分析过程详见我的另一篇文章: