R语言对推特twitter数据进行文本情感分析|附代码数据

原文链接：http://tecdat.cn/?p=4012

最近我们被客户要求撰写关于文本情感分析的研究报告，包括一些图形和统计输出。

我们以R语言抓取的推特数据为例，对数据进行文本挖掘，进一步进行情感分析，从而得到很多有趣的信息

找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本。

tweets <-tweets_df>%select(id, statusSource, text, created) %>%
extract(statusSource, "source", "Twitter for (.*?)<")>%filter(source %in%c("iPhone", "Android"))

对数据进行可视化计算不同时间对应的推特比例.。

并且对比安卓手机和苹果手机上的推特数量的区别。

从对比图中我们可以发现，安卓手机和苹果手机发布推特的时间有显著的差别，安卓手机倾向于在5点到10点之间发布推特，而苹果手机一般在10点到20点左右发布推特。同时我们也可以看到，安卓手机发布推特数量的比例要高于苹果手机。

点击标题查阅往期内容

NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据

然后查看推特中是否含有引用 ,并且对比不同平台上的数量。

ggplot(aes(source, n, fill = quoted)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="", y ="Number of tweets", fill ="")

从对比的结果来看，安卓手机没有被引用的比例要明显低于苹果手机。而安卓手机引用的数量要明显大于苹果手机。因此可以认为，苹果手机发的推特内容大多为原创，而安卓手机大多为引用。

然后查看推特中是否有链接或者图片，并且对比不同平台的情况

ggplot(tweet_picture_counts, aes(source, n, fill = picture)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="",

从上面的对比图中，我们可以看到安卓手机没有图片或者链接的情况要多于苹果，也就是说，使用苹果手机的用户在发推特的时候一般会发布照片或者链接。

同时可以看到安卓平台的用户把推特一般不使用图片或者链接，而苹果手机的用户恰恰相反。

spr <-tweet_picture_counts>%spread(source, n) %>%mutate_each(funs(. /sum(.)), Android, iPhone)
rr <-spr$iPhone[2] /spr$Android[2]

然后我们对推特中的异常字符进行检测，并且进行删除然后找到推特中关键词，并且按照数量进行排序

reg <- "([^A-Za-zd#@']|'(?![A-Za-zd#@]))
"tweet_words <-tweets>%filter(!str_detect(text, '^"')) %>%mutate(text =str_replace_all(text, "https://t.co/[A-Za-zd]+|&", "")) %>%unnest_tokens(word, text, token ="regex", pattern = reg) %>%filter(!word %in%stop_words$word,str_detect(word, "[a-z]"))tweet_words %>%count(word, sort =TRUE) %>%head(20) %>%mutate(word =reorder(word, n)) %>%ggplot(aes(word, n)) +geom_b

对数据进行情感分析，并且计算安卓和苹果手机的相对影响比例。

通过特征词情感倾向分别计算不同平台的情感比，并且进行可视化。

在统计出不同情感倾向的词的数量之后，绘制他们的置信区间。从上面的图中可以看到，相比于苹果手机，安卓手机的负面情绪最多，其次是厌恶，然后是悲伤。表达积极的情感倾向很少。

然后我们对每个情感类别中出现的关键词的数量进行统计。

android_iphone_ratios %>%inner_join(nrc, by ="word") %>%filter(!sentiment %in%c("positive", "negative")) %>%mutate(sentiment =reorder(sentiment, -logratio),word =reorder(word, -logratio)) %>%

从结果中我们可以看到，负面词大多出现在安卓手机上，而苹果手机上出现的负面词的数量要远远小于安卓平台上的数量。

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《R语言对推特twitter数据进行文本情感分析》。

点击标题查阅往期内容

【数据分享】维基百科Wiki负面有害评论（网络暴力）文本数据多标签分类挖掘可视化
R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究
NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集
自然语言处理NLP：主题LDA、情感分析疫情下的新闻文本数据
R语言对NASA元数据进行文本挖掘的主题建模分析
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
用于NLP的Python：使用Keras进行深度学习文本生成
长短期记忆网络LSTM在时间序列预测和文本分类中的应用
用Rapidminer做文本挖掘的应用：情感分析
R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究
R语言对推特twitter数据进行文本情感分析
Python使用神经网络进行简单文本分类
用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类
R语言文本挖掘使用tf-idf分析NASA元数据的关键字
R语言NLP案例：LDA主题文本挖掘优惠券推荐网站数据
Python使用神经网络进行简单文本分类
R语言自然语言处理（NLP）：情感分析新闻文本数据
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
R语言对推特twitter数据进行文本情感分析
R语言中的LDA模型：对文本数据进行主题模型topic modeling分析
R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation

R语言对推特twitter数据进行文本情感分析|附代码数据

Facebook资讯

Youtube资讯

Twitter/X资讯

Instagram资讯

tiktok资讯

Threads资讯

Youtube刷订阅，油管刷播放量

Facebook刷赞，脸书刷粉

twitter刷粉，推特刷赞

Instagram刷粉，Ins刷赞

tiktok刷订阅，tiktok刷播放量

应用程序“DEFAULT WEB SITE”中的服务器错误

推特(TWTR.US)CEO：比特币将是推特未来的“重要组成部分”

胡锡进发文被推特要求删除美丽国的言论自由是有边界的

twitter(推特)官网版

推特x账号免费注册账号 ,推特x账号免费注册账号是什么

推特怎么在国内使用?(大陆最强攻略)

如何用twitter来找客户？

如何用R语言对Twitter数据进行挖掘分析

【大数据部落】用R挖掘Twitter数据

用R挖掘Twitter数据

R语言文本挖掘：twitter推特LDA主题情感分析|附代码数据

Twitter上的12种推广方法

R语言对推特twitter数据进行文本情感分析|附代码数据

Facebook资讯

Youtube资讯

Twitter/X资讯

Instagram资讯

tiktok资讯

Threads资讯

Youtube刷订阅，油管刷播放量

Facebook刷赞，脸书刷粉

twitter刷粉，推特刷赞

Instagram刷粉，Ins刷赞

tiktok刷订阅，tiktok刷播放量

应用程序“DEFAULT WEB SITE”中的服务器错误

推特(TWTR.US)CEO：比特币将是推特未来的“重要组成部分”

胡锡进发文被推特要求删除 美丽国的言论自由是有边界的

twitter(推特)官网版

推特x账号免费注册账号 ,推特x账号免费注册账号是什么

推特怎么在国内使用?(大陆最强攻略)

如何用twitter来找客户？

如何用R语言对Twitter数据进行挖掘分析

【大数据部落】用R挖掘Twitter数据

用R挖掘Twitter数据

R语言文本挖掘：twitter推特LDA主题情感分析|附代码数据

Twitter上的12种推广方法

胡锡进发文被推特要求删除美丽国的言论自由是有边界的