Tag: 维基媒体转储

如何提高使用维基百科数据时的性能和巨大的数据。 的网页?

我应该使用维基百科的文章链接数据转储从组织的网站中提取代表性术语。 要做到这一点,我 – 已抓取并下载的组织的网页。 (〜11万) 创建了维基百科ID和术语/标题的字典。 (约4,000万条记录) 现在,我应该使用字典处理每个网页,以识别术语并跟踪他们的术语ID和频率。 为了使字典适合内存,我将字典拆分为较小的文件。 根据我对小型数据集的实验,上述处理时间约为75天。 这仅适用于1个组织。 我必须为40多个人做同样的事情。 实施 – HashMap用于在内存中存储字典。 使用Boyer-Moore搜索实现循环遍历每个地图条目以在网页中搜索术语。 对每个网页重复上述操作,并将结果存储在HashMap中。 我已经尝试优化代码并调整JVM以获得更好的性能。 有人可以建议更有效地实施上述方法,将处理时间缩短到几天。 Hadoop是一个可以考虑的选择吗?