一、背景介绍

Youtube在2004年成立于美国加州圣布鲁诺的一家视频分享网站,以”Broadcast Yourself”为宣传口号,为用户提供上传、观看、分享及评论视频的服务。

2006年11月,Youtube被Google以16.5亿美元收购。

截止到2018年8月,Youtube被评为全球第二大热门网站,在全球有超过10亿用户,网站上每天的观看时长之和超过10亿小时。

Kaggle.com上提供youtube的2017-2018年度各国用户数据,我从中挑选美国地区用户的数据作分析,看看能否找出Youtube成功的秘诀和可改进的地方。

一、提出问题

1. 视频网站数据分析常用指标

1.1 固有属性

发布时间

视频时长

1.2 播放量相关指标

推荐量

累计播放量(VV, Video View)

日播放量

周播放量

渠道播放来源

播放人数

人均播放数

播放终端

1.3播放完成性相关指标

播完量

播完率

平均播放进度

播放时长

分日播放时长

跳出率

分时调出量

分时拖拽行为

1.4互动指标

评论量

涨粉量

转发量

收藏量

点赞量

1.5关联指标

播荐率

评论率(=评论量/播放量*100%)

点赞率

转发率

收藏率

涨粉率

2. 项目研究问题

2.1 哪一种分类的视频有最高的总播放量?

2.2 各个分类中观众的评论率多少?评论率最高的5个分类是什么?

2.3 视频观众中对哪些分类的视频喜爱程度最高?观众对各个分类的喜爱程度的对比是怎样的?

二、理解数据

该数据集有16列;每列行数不尽相同,最少一列有40257行,可能存在某些行部分数据缺失。各字段及其含义如下:

video_id 视频ID

trending_date 热搜日期

title 标题

channel_title 频道标题

category_id 分类ID

publish_time 上传时间

tags 标签

views 播放量

likes 喜欢量

dislikes 不喜欢量

comment_count 评论量

thumbnail_link 推荐链接

comments_disabled 关闭评论

ratings_disabled 关闭评分

video_error_or_removed 视频删除

description 简介

三、清洗数据

为第一行加上自动筛选

删掉所有无效或信息不全的行。

分开 上传时间publish_time这一列中的日期和时间。隐藏时间,和其他用不到的列。

调整日期为中国格式,最终得到清洗后的数据如下。

一、数据分析

5.1 哪一种分类的视频有最高的总播放量?

我们使用数据透视表来汇总相关数据:

按照总播放量降序排列:

我们得出结论:

编号分类10有最高的播放量,占据所有分类总播放量的近35.3%

5.2百分之多少的视频观众会留言?留言百分比最高的5个分类是什么?

行业定义:评论率=留言数/播放量*100%

给表格最右边加上一列留言百分比,这一列填上公式,得到百分比结果。

然后我们对此列排序降序,顺序延伸到其他列,得出结论。

我们得出结论:

所有分类全部集合,约有0.4%的观众会评论;其中评论率最高的5个分类:29,20,26,25,22. 在这5个分类中,编号29的分类评论率最高,高达2.89%


5.3视频观众中对哪些分类的视频喜爱程度最高?观众对各个分类的喜爱程度的对比是怎样的?

我们定义:观众的喜爱程度=喜欢数量/不喜欢数量

给表格最右边加上一列喜爱程度,这一列填上公式,得到数字结果,调整格式为保留2位小数。然后我们对此列排序降序,顺序延伸到其他列

我们选取分类和喜爱程度 这两列,画出折线图

我们得出结论:

所有分类中最受喜爱的3大分类为编号43,15和27这3大类,点击喜欢远多于点击不喜欢的观众数量。最不受观众喜爱的分类是编号25 。

通过数据可视化之后的折线图,我们可以直观的看到,这3大类远高于其他分类视频受喜爱的程度。