Twitter趋势:Twitter趋势是一个基于Web的应用程序,可通过标签和推文中的用户提及自动实时检测和分析新兴主题。 Tw...
计划
第一提取程序照常提取推文。
推文将被清理并转储到MongoDB中。
整天进行汇总。
根据汇总,找到排名前100位的实体,并将相应的推文汇总为一个集合。
在将其转储到集合中之前,需要对它们进行情感分析。
使用100个集合中的每个集合作为单独的文档,执行LDA。 如果100个文档太少,我们可以将大文档拆分为较小的文档。
这些推文会单独进行迭代以找到其所属的主题。
为似乎最相关的每个主题提取URL。
对应于URL的网页已下载并解析。
提取后可以显示部分主要内容。
该图与往常一样近似,但是必须讨论时间跨度。
在门户网站上为每个主题显示图形,URL的相关推文和摘要以及超链接。