数据集介绍:
该数据集来自Kaggle,包含有关YouTube每日热门视频的数月(且在不断增加)的数据,现选择美国地区的数据子集进行分析。
数据维度包括视频标题,频道标题,发布时间,标签,观看次数,喜欢和不喜欢,描述以及评论数,如图1所示。
全文分为三部分,Part1数据准备阶段、Part 2 数据分析阶段、Part 3 分析结论呈现




Part 1 数据准备阶段
1、导入库
2、读取数据集
3、数据总览
4、预览缺省值和数据类型

5、预览前五行


6、数据清洗——修正日期数据格式
通过观察发现,将原始数据集中的发布时间publish_time和推荐时间trending_time的时间这两列时间数据转化为标准格式
a)修正推荐日期trending_time的格式

b)修正发布日期publish_time的格式,并新增发布星期publish_day、trending_day、pubulish_hour列

7、数据清洗——修改数据类型
将观看量、点赞数、不喜欢数、评论数等关键指标由FLOAT格式转化为INT格式;将Catogory_id由INT转化为字符串String格式
8、数据清洗——导入相关数据成为新增列
通过导入另一个文件US_category_id.json向数据中添加“视频类型”列
a)匹配id和category
b)插入category列

9、数据清洗——去除重复数据
通过观察可以发现,原始数据集4万余条数据中,某一条推荐视频ID一般会在推荐榜单停留多天,因此我们针对video_id做去重处理,只留下每一条推荐视频最后一天的数据。
Part 2 数据分析阶段
10、基础指标——描述性统计
作为全球最大最强的UGC互联网视频网站,用户参与度是Youtube关心的核心指标,而观看量、点赞、不喜欢和评论量是反应用户参与度的重要指标,因此对这几个核心指标进行描述性统计,可以看出:
a)推荐视频四项指标的数量级分别为:观看量>喜欢>评论>不喜欢
b) 推荐视频的指标均值为观看量200万,点赞量5.5万,评论量3.4千,不喜欢3.2千
c)推荐视频的四项指标均接近正态分布


11、二级指标——转化率指标分析
为核心指标新增转化率指标,分析转化率指标的分布情况
a)推荐视频四项指标的转化率均值分别为 :①观看-点赞 3%;②观看-评论 0.4%;③观看-不喜欢 0.16%
b) 不同“点赞”的相对分散的分布,“评论”和“不喜欢”的分布相似,非常集中,证明观众对于热门视频中喜爱程度因人而异,点赞趋向相对平均而分散,但对于想要发表评论和不喜欢的意见的视频相对集中。

12、按品类聚合核心指标
按品类聚合后推荐视频观看量、点赞量和不喜欢量的分布情况
a)热门视频数最高的三类视频是:娱乐类、音乐类、教学和风格类
b) 游戏类、音乐类和喜剧类视频是在观看量和点赞量中表现最好的。值得注意的是,娱乐类虽然热门视频数量最多,但在观看量和点赞量上的表现并不是最突出的。
c) 新闻政治类和非盈利类视频在观看、点赞和评论等各项指标中都显著低于其他类别。但不同的是,非盈利类的热门视频数量与关键指标一样很低,但新闻政治类的数量甚至在比较靠前的第5位。





13、按频道聚合核心指标
按频道聚合后推荐视频观看量、点赞量和不喜欢量的分布情况
热门视频数最高的TOP 10频道是:ESPN、艾伦秀、鸡毛秀、肥伦秀、奈飞、史蒂文库布特秀、NBA、CNN、Vox、詹姆斯戈登秀,可以看出产出热门视频数最多的频道是脱口秀栏目d频道,占据了半壁江山,其余被体育频道和新闻频道瓜分。
14、核心指标之间的相关性
观看量、点赞量、不喜欢量和评论量之间存在着强相关,其中观看和点赞的相关性最强

15、时间指标分析——发布星期和发布时间
a) 出人意料地,数据显示,周日和周六热门视频推荐数量明显少于一周其他日期发布的热门视频推荐数量。可能正因为如此,热门视频的创作者们也将热门视频的发布时间更多的选在周一至周五。
b) 数据显示,从2PM到7PM之间的时段(在4PM和5PM之间达到峰值)的热门视频的发布数量最多。 上午12点至下午1点之间的时间段内发布的热门视频数量最少。可见创作者们更趋向于在下午和傍晚发布视频。



16、文字指标分析——标题长度
a) 标题长度分布类似于正态分布,其中大多数视频的标题长度大约在30到60个字符之间。
b) 标题长度和观看量无显著相关关系,但观看次数超过1亿的视频的标题长度大约在33到55个字符之间。


17、文字指标分析——标题词频
a) 忽略“ the”和“ of”之类的无意义单词,我们可以看到“-”和“ |” 符号在热门视频标题中出现的次数很多,可知热门视频的作者比较注意标题的格式清晰。
b) 词云中显眼的单词即为热门标题中最常出现的单词,一定程度上可以从中获取热门视频题材的灵感,视频标签和视频简介同理。

Part 3 分析结论呈现
1、通过观察可以发现,原始数据集4万余条数据中,某一条推荐视频ID一般会在推荐榜单停留多天,因此我们针对video_id做去重处理,只留下每一条推荐视频最后一天的数据。
2、关键指标的描述性统计
作为全球最大最强的UGC互联网视频网站,用户参与度是Youtube关心的核心指标,而观看量、点赞、不喜欢和评论量是反应用户参与度的重要指标,因此对这几个核心指标进行描述性统计,可以看出:
a)推荐视频四项指标的数量级分别为:观看量>喜欢>评论>不喜欢
b) 推荐视频的指标均值为观看量200万,点赞量5.5万,评论量3.4千,不喜欢3.2千
c)推荐视频的四项指标均接近正态分布
3、核心指标转化率分析
为核心指标新增转化率指标,分析转化率指标的分布情况
a)推荐视频四项指标的转化率均值分别为 :①观看-点赞 3%;②观看-评论 0.4%;③观看-不喜欢 0.16%
b) 不同“点赞”的相对分散的分布,“评论”和“不喜欢”的分布相似,非常集中,证明观众对于热门视频中喜爱程度因人而异,点赞趋向相对平均而分散,但对于想要发表评论和不喜欢的意见的视频相对集中。
4、按品类聚合核心指标
按品类聚合后推荐视频观看量、点赞量和不喜欢量的分布情况
a)热门视频数最高的三类视频是:娱乐类、音乐类、教学和风格类
b) 游戏类、音乐类和喜剧类视频是在观看量和点赞量中表现最好的。值得注意的是,娱乐类虽然热门视频数量最多,但在观看量和点赞量上的表现并不是最突出的。
c) 新闻政治类和非盈利类视频在观看、点赞和评论等各项指标中都显著低于其他类别。但不同的是,非盈利类的热门视频数量与关键指标一样很低,但新闻政治类的数量甚至在比较靠前的第5位。
5、按频道聚合核心指标
a) 按频道聚合后推荐视频观看量、点赞量和不喜欢量的分布情况
热门视频数最高的TOP 10频道是:ESPN、艾伦秀、鸡毛秀、肥伦秀、奈飞、史蒂文库布特秀、NBA、CNN、Vox、詹姆斯戈登秀,可以看出产出热门视频数最多的频道是脱口秀栏目d频道,占据了半壁江山,其余被体育频道和新闻频道瓜分。
6、核心指标之间的相关性
a) 观看量、点赞量、不喜欢量和评论量之间存在着强相关,其中观看和点赞的相关性最强
7、时间维度分析——发布星期和发布时间
a) 出人意料地,数据显示,周日和周六热门视频推荐数量明显少于一周其他日期发布的热门视频推荐数量。可能正因为如此,热门视频的创作者们也将热门视频的发布时间更多的选在周一至周五。
b) 数据显示,从2PM到7PM之间的时段(在4PM和5PM之间达到峰值)的热门视频的发布数量最多。 上午12点至下午1点之间的时间段内发布的热门视频数量最少。可见创作者们更趋向于在下午和傍晚发布视频。
8、文字分析——标题长度
a) 标题长度分布类似于正态分布,其中大多数视频的标题长度大约在30到60个字符之间。
b) 标题长度和观看量无显著相关关系,但观看次数超过1亿的视频的标题长度大约在33到55个字符之间。
9、文字分析——标题文本
a) 忽略“ the”和“ of”之类的无意义单词,我们可以看到“-”和“ |” 符号在热门视频标题中出现的次数很多,可知热门视频的作者比较注意标题的格式清晰。
b) 词云中显眼的单词即为热门标题中最常出现的单词,一定程度上可以从中获取热门视频题材的灵感,视频标签和视频简介同理。