原文链接:http://tecdat.cn/?p=1506

最近我们被客户要求撰写关于文本挖掘的研究报告,包括一些图形和统计输出。 高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手 ( 点击文末“阅读原文”获取完整代码数据******** )。

根据这个背景,tecdat对素有“塞上江南”之称的宁夏热门推文(hot tweet,推特中的热门推文是指被转推或被收藏过的推文,相比普通推文影响力更大)进行了分析。

研究人员发现网友们关注的主题,同时倾听大家呈现出来的态度及情感。根据对135,592条推特用户自主在线发布消息的分析,我们发现了一些值得注意的内容。

▍“消费购物” 成为关注度最高主题, 超过十分之一的推文与饮食有关

可以看到,热门推文中有关的主题有4个,根据场景的不同分别为“消费购物”、“工业经济”、“健康养生”、“休闲生活”。有关消费购物的推文所占比例最高,推特用户中最关心的宁夏议题是消费购物。

属于消费购物类的主题包括Market, oilsoil,food,wolf berries,drinking,wine,共6项,所占比例为32.6%;

属于工业经济的包括energy, automous ,industry, coal , province等5个主题, 所占比例为26.4%。

点击标题查阅往期内容

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

01

02

03

04


属于健康养生的主题包括living , heal ,nural, antioxidant , goji ,dried,共计6个,所占比例为21%。

属于休闲生活的主题包括twter , instagram ,pic, youngliving , shot,共计5个,所占比例为20%。

从消费购物词云中,我们发现驴友爱买的宁夏特产,如干红葡萄酒、枸杞酒、贺兰石等。

从工业词云中,我们发现煤炭是宁夏的优势矿产资源。宁夏境内能源资源丰富,可利用的有石油、天然气、煤层气、水能、风能、光能等。这些资源为宁夏建设能源基地提供了强有力的保证。

从健康养生词云中我们发现作为宁夏特产的枸杞,具有一定的养生抗氧化功效。

从休闲生活词云中,我们发现宁夏作为旅游胜地,吸引了大量年轻人前来拍照游玩。

▍热门推文总体上以积极正向为主

从变化的情况来看,2016年的推文积极正面的评价比例最低,为42%,消极负面评价的比例为58%,是历年来最高的。

点击标题查阅往期内容

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

01

02

03

04

通过2016年推特的关键词,我们发现负面的议题包括:驴友评论宁夏干燥的天气、宁夏部分地区牺牲环境换发展、以及导游强迫购物现象。

按照四个主题来看,在健康养生议题中,积极正面的评价为77.05%,略高于其他议题中正面评价的比例。同时可以看到休闲生活的负面评价比例最低。

▍热门推文中只有四分之一表现出了明显的情感

识别情感时,共有六种情感:anger(愤怒)、disgust(厌恶)、fear(恐惧)、joy(喜悦)、sadness(悲伤)和surprise(惊奇),在分析时会先为每条推文的每种可能情感打分。

如果六种情感可能性得分相差不大时,则情感类拟合为unknown(未知)。如果某条推文被拟合得到某一类情感,该情感一定是强烈的情感。

从情感分析的结果来看,只有25.54%的推文表现出了强烈的情感。近四分之三的推文都没有表现出强烈的情感,情感拟合为unknown。

历时来看,随着时间的推移,热门推文表现出强烈情感的比例越来越多。在2008年,只有30.3%表达出了强烈的情感,而2016年,这个比例已经提升到42.8%。这表明,就宁夏地区议题而言,推特用户越来越倾向于表达出强烈的情感。

▍从情感的比例情况来看,喜悦高居第一位,且有上升的趋势

从所表达出来的情感来看,比例最高的情感是喜悦,占比16.19%;其次为悲伤,占4.49%。

joy呈现出逐年提高的趋势, 这说明热门推文中,含有喜悦情感的比例越来越多,而sadness呈现出小幅上下波动减小的态势。

 

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《R语言文本挖掘:twitter推特LDA主题情感分析》。


点击标题查阅往期内容

scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘
R语言用随机森林和文本挖掘提高航空公司客户满意度
R语言中对文本数据进行主题模型topic modeling分析
R语言文本挖掘NASA数据网络分析,tf-idf和主题建模
R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究
scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘
主题模型及文本情感分析疫情新闻数据
R语言对NASA元数据进行文本挖掘的主题建模分析
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类
python使用MongoDB,Seaborn和Matplotlib文本分析和可视化API数据
用于NLP的Python:使用Keras进行深度学习文本生成
用R进行网站评论文本挖掘聚类
weka文本挖掘分析垃圾邮件分类模型
R语言用随机森林和文本挖掘提高航空公司客户满意度
用r语言对优惠券推荐网站数据LDA文本挖掘