计划 第一提取程序照常提取推文。 推文将被清理并转储到MongoDB中。 整天进行汇总。 根据汇总,找到排名前100位的实体,并将相应的推文汇总为一个集合。 在将其转储到集合中之前,需要对它们进行情感分析。 使用100个集合中的每个集合作为单独的文档,执行LDA。 如果100个文档太少,我们可以将大文档拆分为较小的文档。 这些推文会单独进行迭代以找到其所属的主题。 为似乎最相关的每个主题提取URL。 对应于URL的网页已下载并解析。 提取后可以显示部分主要内容。 该图与往常一样近似,但是必须讨论时间跨度。 在门户网站上为每个主题显示图形,URL的相关推文和摘要以及超链接。