Tag: 维基媒体转储

如何提高使用维基百科数据时的性能和巨大的数据。的网页？: 我应该使用维基百科的文章链接数据转储从组织的网站中提取代表性术语。要做到这一点，我 – 已抓取并下载的组织的网页。（〜11万）创建了维基百科ID和术语/标题的字典。（约4,000万条记录）现在，我应该使用字典处理每个网页，以识别术语并跟踪他们的术语ID和频率。为了使字典适合内存，我将字典拆分为较小的文件。根据我对小型数据集的实验，上述处理时间约为75天。这仅适用于1个组织。我必须为40多个人做同样的事情。实施 – HashMap用于在内存中存储字典。使用Boyer-Moore搜索实现循环遍历每个地图条目以在网页中搜索术语。对每个网页重复上述操作，并将结果存储在HashMap中。我已经尝试优化代码并调整JVM以获得更好的性能。有人可以建议更有效地实施上述方法，将处理时间缩短到几天。 Hadoop是一个可以考虑的选择吗？

Interesting Posts

拦截方法调用

使用来自具有datanucleus maven插件的单独模块的JDO Persistent类

JMS负载平衡（1个队列，2个队列连接工厂和1个.bindings）

无法在java中完成此任务

即使在一对多关系中使用orphanRemoval = true，孤儿仍保留在数据库中（JPA / Hibernate）

IntelliJ IDEA 13.1 – 如何使用3GB RAM防止32位操作系统（Win 7）上的内存不足问题

如何设置默认方法参数值？

JRE系统库（未绑定）

递归构造函数调用错误无法找到解决方案

如何在不停止JVM的情况下将Javaagent添加到JVM？

使用JAX-WS构建大型MTOM / XOP消息

在Java中，为什么我不能在父类中声明最终成员（没有初始化它）并在子类中设置它的值？我该如何解决？

如何在Java中显示树层次结构？

部署播放！应用程序作为可执行jar

oracle上的Hibernate序列，@ GeneratedValue（strategy = GenerationType.AUTO）