前言:
本文参考《python数据挖掘入门与实践》第六章,进行twiitter社会媒体挖掘。学完后感觉对社会媒体挖掘领域很有兴趣,往后会深入研究。还有就是本文采用ipython编辑,代码后面紧跟着输出,注意不要混淆。

正文:

## 下载新的Twitter语料 授权令牌信息获取网址:https://apps.twitter.com/ 具体操作可google。 以下XXXX为需填入的信息,如果不想自己下载可以在文末网盘找到我的数据,跳过此步骤。 导入twitter库,设置授权令牌
import twitter
consumer_key = "XXX"
consumer_secret = "XXXX"
access_token = "XXXX"
access_token_secret = "XXXX"
authorization = twitter.OAuth(access_token,access_token_secret,consumer_key,consumer_secret)
使用twitter库提供的search函数查找“python”的消息 PS:一定要开vpn的全局模式,否则会一直TimeError:10060
#指定消息储存位置
import os
import json
output_filename = os.path.join("E:\DataMining\Project\dataming_with_python\朴素贝叶斯社会媒体挖掘","python_tweets.json")
#创建用来从twitter读取数据的对象
t = twitter.Twitter(auth=authorization)

with open(output_filename,'a') as output_file:
    search_results = t.search.tweets(q="python",count=100)['statuses']#只需“statuses”部分内容
    for tweet in search_results:
        #含有“text”的才是要的消息对象
        if 'text' in tweet:
            output_file.write(json.dumps(tweet))
            output_file.write("\n\n")
## 加载数据集并对其进行分类
import os
import json
input_filename = os.path.join("E:\DataMining\Project\dataming_with_python\chapter_6朴素贝叶斯社会媒体挖掘","python_tweets.json")
classes_filename = os.path.join("E:\DataMining\Project\dataming_with_python\chapter_6朴素贝叶斯社会媒体挖掘","python_classes.json")
tweets = []
with open(input_filename) as</