Python对YouTube视频统计趋势数据集分析

资源下载地址：https://download.csdn.net/download/sheziqiong/85638214

项目描述

给定三个数据集，每个数据集里面都有一些用户的历史请求内容，三个数据集分别来自三个基站。分别对三个数据集进行处理

jsoncategory_id

大致效果图：

在这里插入图片描述

数据集获取

Youtube

数据预处理

random

数据集描述

Youtube

YoutubeUS，GB，DE，CA和FR

RU，MX，KR，JP和IN视频标题，频道标题，发布时间，标签，观看次数，喜欢和不喜欢，描述以及评论数category_idJSON

预处理步骤

D:.
│  开发文档.md
│
├─.idea
│  │  .gitignore
│  │  2021_03_30_课题.iml
│  │  misc.xml
│  │  modules.xml
│  │  vcs.xml
│  │  workspace.xml
│  │
│  └─inspectionProfiles
│          profiles_settings.xml
│
├─codes
│      task1_数据集分开存放.py
│
├─datasets
│  └─archive
│          CAvideos.csv
│          CA_category_id.json
│          DEvideos.csv
│          DE_category_id.json
│          FRvideos.csv
│          FR_category_id.json
│          GBvideos.csv
│          GB_category_id.json
│          INvideos.csv
│          IN_category_id.json
│          JPvideos.csv
│          JP_category_id.json
│          KRvideos.csv
│          KR_category_id.json
│          MXvideos.csv
│          MX_category_id.json
│          RUvideos.csv
│          RU_category_id.json
│          USvideos.csv
│          US_category_id.json
│
└─images
        效果.png

在这里插入图片描述

import os
# 使用pandas切割数据
import pandas as pd


dst_path = '../datasets/archive'
# 这边获取的是各个子文件夹的名称
paths = os.listdir(dst_path)
# 需要依次遍历这些目录，寻找以.csv为后缀的文件
for path in paths:
    path_now = dst_path + '/' + path
    # 各个子目录下面文件组成的列表
    names = os.listdir(path_now)
    for name in names:
        # 这边就匹配到各自对应的csv文件了
        if name.split(".")[-1] == 'csv':
            try:
                # 打开对应文件
                data = pd.read_csv(path_now + '/' + name,encoding='latin-1')
                # 开始切割
                num = 0
                for i in range(4):
                    start = num
                    num += int(data.shape[0] / 4)
                    file = data.iloc[start:num,]
                    file.to_csv(path_now + '/' + name.split(".")[0] + str(i) + '.csv',index=False)
                print('{}开始分隔完毕！'.format(name))
            except Exception as error:
                print("{}-----------------{}".format(name,error))

在这里插入图片描述

数据清洗与可视化

Jupyter notebooknotebooktask2_数据清洗与可视化.ipynbUSvideos.csv

在这里插入图片描述

得到的结论如下：

```
1、通过观察可以发现，原始数据集4万余条数据中，某一条推荐视频ID一般会在推荐榜单停留多天，因此我们针对video_id做去重处理，只留下每一条推荐视频最后一天的数据。

2、关键指标的描述性统计
	作为全球最大最强的UGC互联网视频网站，用户参与度是Youtube关心的核心指标，而观看量、点赞、不喜欢和评论量是反应用户参与度的重要指标，因此对这几个核心指标进行描述性统计，可以看出：
	a）推荐视频四项指标的数量级分别为：观看量>喜欢>评论>不喜欢
	b) 推荐视频的指标均值为观看量200万，点赞量5.5万，评论量3.4千，不喜欢3.2千
	c）推荐视频的四项指标均接近正态分布

3、核心指标转化率分析
	为核心指标新增转化率指标，分析转化率指标的分布情况
	a）推荐视频四项指标的转化率均值分别为 ：①观看-点赞 3%；②观看-评论 0.4%；③观看-不喜欢 0.16%
	b) 不同“点赞”的相对分散的分布，“评论”和“不喜欢”的分布相似，非常集中，证明观众对于热门视频中喜爱程度因人而异，点赞趋向相对平均而分散，但对于想要发表评论和不喜欢的意见的视频相对集中。

4、按品类聚合核心指标
	按品类聚合后推荐视频观看量、点赞量和不喜欢量的分布情况
    a）热门视频数最高的三类视频是：娱乐类、音乐类、教学和风格类
	b) 游戏类、音乐类和喜剧类视频是在观看量和点赞量中表现最好的。值得注意的是，娱乐类虽然热门视频数量最多，但在观看量和点赞量上的表现并不是最突出的。
	c） 新闻政治类和非盈利类视频在观看、点赞和评论等各项指标中都显著低于其他类别。但不同的是，非盈利类的热门视频数量与关键指标一样很低，但新闻政治类的数量甚至在比较靠前的第5位。

5、按频道聚合核心指标
	a) 按频道聚合后推荐视频观看量、点赞量和不喜欢量的分布情况
	热门视频数最高的TOP10频道是：ESPN、艾伦秀、鸡毛秀、肥伦秀、奈飞、史蒂文库布特秀、NBA、CNN、Vox、詹姆斯戈登秀，可以看出产出热门视频数最多的频道是脱口秀栏目频道，占据了半壁江山，其余被体育频道和新闻频道瓜分。

6、核心指标之间的相关性
	a) 观看量、点赞量、不喜欢量和评论量之间存在着强相关，其中观看和点赞的相关性最强

7、时间维度分析——发布星期和发布时间
	a) 出人意料地，数据显示，周日和周六热门视频推荐数量明显少于一周其他日期发布的热门视频推荐数量。可能正因为如此，热门视频的创作者们也将热门视频的发布时间更多的选在周一至周五。
	b) 数据显示，从2PM到7PM之间的时段（在4PM和5PM之间达到峰值）的热门视频的发布数量最多。 上午12点至下午1点之间的时间段内发布的热门视频数量最少。可见创作者们更趋向于在下午和傍晚发布视频。

8、文字分析——标题长度
	a) 标题长度分布类似于正态分布，其中大多数视频的标题长度大约在30到60个字符之间。
	b) 标题长度和观看量无显著相关关系，但观看次数超过1亿的视频的标题长度大约在33到55个字符之间。

9、文字分析——标题文本
	a) 忽略“ the”和“of”之类的无意义单词，我们可以看到“-”和“|” 符号在热门视频标题中出现的次数很多，可知热门视频的作者比较注意标题的格式清晰。
	b) 词云中显眼的单词即为热门标题中最常出现的单词，一定程度上可以从中获取热门视频题材的灵感，视频标签和视频简介同理。
```

数据集子集求排名交集

task4_数据集子集排名交集.py

资源下载地址：https://download.csdn.net/download/sheziqiong/85638214

Python对YouTube视频统计趋势数据集分析

项目描述

数据集获取

数据预处理

数据集描述

预处理步骤

数据清洗与可视化

数据集子集求排名交集

Facebook资讯

Youtube资讯

Twitter/X资讯

Instagram资讯

tiktok资讯

Threads资讯

Youtube刷订阅，油管刷播放量

Facebook刷赞，脸书刷粉

twitter刷粉，推特刷赞

Instagram刷粉，Ins刷赞

tiktok刷订阅，tiktok刷播放量

开团 | 小小优趣上新！推荐了3年的APP，今年还有这些新内容和新功能上线，买起来！

Clipchamp 的新增功能

YouTube Shorts 短视频时限提升至3分钟，搭载AI生成功能带来新机遇

YouTube推出新的打赏功能，为创作者提供更多激励

Android 12正式版来了：全新设计超好看，还有 8 大实用功能

上 Apple tvOS 14 的新功能

贺!【萝莉神镇魂曲】全球热门音乐成就达成 9月29到10月5日油管音樂影片播放量统计

Hive拓展项目之Youtube

YouTube详细统计信息

【数据统计】油管上的Vtuber们订阅量/粉丝数统计

2023年YouTube最新统计数据，帮你读懂YouTube广告该怎么投放

YouTube视频统计数据分析

Python对YouTube视频统计趋势数据集分析

项目描述

数据集获取

数据预处理

数据集描述

预处理步骤

数据清洗与可视化

数据集子集求排名交集

Facebook资讯

Youtube资讯

Twitter/X资讯

Instagram资讯

tiktok资讯

Threads资讯

Youtube刷订阅，油管刷播放量

Facebook刷赞，脸书刷粉

twitter刷粉，推特刷赞

Instagram刷粉，Ins刷赞

tiktok刷订阅，tiktok刷播放量

开团 | 小小优趣上新！推荐了3年的APP，今年还有这些新内容和新功能上线，买起来！

Clipchamp 的新增功能

YouTube Shorts 短视频时限提升至3分钟，搭载AI生成功能带来新机遇

YouTube推出新的打赏功能，为创作者提供更多激励

Android 12正式版来了：全新设计超好看，还有 8 大实用功能

上 Apple tvOS 14 的新功能

贺!【萝莉神镇魂曲】全球热门音乐成就达成 9月29到10月5日油管音樂影片播放量统计

Hive拓展项目之Youtube

YouTube详细统计信息

【数据统计】油管上的Vtuber们订阅量/粉丝数 统计

2023年YouTube最新统计数据，帮你读懂YouTube广告该怎么投放

YouTube视频统计数据分析

【数据统计】油管上的Vtuber们订阅量/粉丝数统计