Tag: 文本挖掘

如何提高使用维基百科数据时的性能和巨大的数据。 的网页?

我应该使用维基百科的文章链接数据转储从组织的网站中提取代表性术语。 要做到这一点,我 – 已抓取并下载的组织的网页。 (〜11万) 创建了维基百科ID和术语/标题的字典。 (约4,000万条记录) 现在,我应该使用字典处理每个网页,以识别术语并跟踪他们的术语ID和频率。 为了使字典适合内存,我将字典拆分为较小的文件。 根据我对小型数据集的实验,上述处理时间约为75天。 这仅适用于1个组织。 我必须为40多个人做同样的事情。 实施 – HashMap用于在内存中存储字典。 使用Boyer-Moore搜索实现循环遍历每个地图条目以在网页中搜索术语。 对每个网页重复上述操作,并将结果存储在HashMap中。 我已经尝试优化代码并调整JVM以获得更好的性能。 有人可以建议更有效地实施上述方法,将处理时间缩短到几天。 Hadoop是一个可以考虑的选择吗?

Java Executor服务并发问题

我正在学习Java中的multithreading。 我正在使用执行程序服务(可调用)因为我需要最终收集我的结果并在进一步之前将它们组合起来。 我实现了multithreading并抛出错误,这是一个type.cast错误。 只是为了让你知道,一旦multithreading工作,并且它不能工作。 对于每个线程返回类型是TreeMap。 而且他们之间没有依赖关系。 这是我的实现: class AbnerCallable implements Callable<TreeMap>{ TreeMap maps; AbnerCallable(TreeMap abs){ maps = abs; } @Override public TreeMap call() throws Exception { TreeMap nerRes = new TreeMap(); AbstractTagger nerTagger = new AbstractTagger(maps); nerRes = nerTagger.tagAbstracts(); System.out.println(“######################One NER is finished.”); return nerRes; } } public TreeMap NERmultithreading(TreeMap abstracts, int thread) throws InterruptedException, […]

解析GATE文档以获取共同参考文本

我正在创建一个用于查找共同引用文本的GATE应用程序。 它工作正常,我已通过GATE中提供的导出选项创建了应用程序的压缩文件。 现在我正在尝试在我的Java代码中使用相同的代码。 Gate.runInSandbox(true); Gate.setGateHome(new File(gateHome)); Gate.setPluginsHome(new File(gateHome, “plugins”)); Gate.init(); URL applicationURL = new URL(“file:” + new Path(gateHome, “application.xgapp”).toString()); application = (CorpusController) PersistenceManager.loadObjectFromUrl(applicationURL); corpus = Factory.newCorpus(“Megaki Corpus”); application.setCorpus(corpus); Document document = Factory.newDocument(text); corpus.add(document); application.execute(); corpus.clear(); 现在我该如何解析这个文档并获得共同参考文本?

多标签文档分类

我有一个数据库,我根据以下三个字段存储数据:id,text,{labels}。 请注意,每个文本都已分配给多个label \ tag \ class。 我想构建一个模型(weka \ rapidminer \ mahout),它可以推荐\将一堆标签\ tags \ classes分类到给定的文本。 我听说过SVM和朴素贝叶斯分类器,但不确定它们是否支持多标签分类。 任何引导我走向正确方向的东西都非常受欢迎!

我如何在名称,数字,金钱,日期等内容中对文字进行分类?

我在一周前做了一些关于文本挖掘的问题,但我有点困惑,但现在我知道我想做什么。 情况:我有很多带有HTML内容的下载页面。 例如,其中一些可以是来自博客的文本。 它们不是结构化的,来自不同的网站。 我想做什么:我将用空白分割所有单词,我想在一些预先定义的内容中对每个单词或一组单词进行分类,如姓名,号码,电话,电子邮件,url,日期,金钱,温度等。 我所知道的:我知道有关自然语言处理,命名实体重新接收器,POSTagging,NayveBayesian,HMM,培训和许多要做分类的事情的概念/听说过,但是有一些不同的NLP库有不同的分类器和这样做的方法,我不知道有什么用途或做什么。 我需要什么:我需要一些来自分类器,NLP的代码示例,无论如何,它可以对文本中的每个单词进行分类,而不是整个文本。 像这样的东西: //This is pseudo-code for what I want, and not a implementation classifier.trainFromFile(“file-with-train-words.txt”); words = text.split(” “); for(String word: words){ classifiedWord = classifier.classify(word); System.out.println(classifiedWord.getType()); } 有人可以帮帮我吗? 我对各种API,分类器和算法感到困惑。

Java中是否有用于文本分析/挖掘的API?

我想知道是否有一个API在Java中进行文本分析。 可以提取文本中的所有单词,单独的单词,表达式等的东西。如果找到的单词是数字,日期,年份,名称,货币等,则可以通知。 我现在开始进行文本分析,所以我只需要一个API来启动。 我做了一个网络爬虫,现在我需要一些东西来分析下载的数据。 需要方法来计算页面中的单词数,类似的单词,数据类型和与文本相关的其他资源。 Java中是否有用于文本分析的API? 编辑:文本挖掘,我想挖掘文本。 提供此function的Java API。

信息增益计算文本文件?

我正在研究“使用信息增益,PCA和遗传算法进行文本分类”但是在对文档进行预处理 (词干,删除词,TFIDF)之后,混淆了如何提前获取信息增益部分。 我的文件包含单词和TFIDF值。 喜欢WORD – TFIDF VALUE 在一起(字) – 0.235(tfidf值) 来(字) – 0.2548(tfidf值) 当使用weka获取信息时(“ InfoGainAttributeEval.java ”),它需要.arff文件格式作为输入。 有没有将文本文件转换为.arff格式。 或任何其他方式预先形成除weka以外的信息收益? 是否还有其他开源用于计算文档的信息收益?

在JAVA中使用哪个NLP工具包?

我正在开展一个项目,该项目包括一个连接到NCBI(国家生物技术信息中心)的网站,并在那里搜索文章。 事情是我必须对所有结果进行一些文本挖掘。 我正在使用JAVA语言进行文本化,使用IAXFACES进行AJAX用于开发网站。 我有什么:从搜索返回的文章列表。 每篇文章都有一个ID和一个摘要。 我们的想法是从每个抽象文本中获取关键字。 然后比较所有摘要中的所有关键字,找出最重复的关键词。 然后在网站上显示搜索的相关字词。 有任何想法吗 ? 我在网上搜索了很多,我知道有名称实体识别,部分语音标记,有基因和蛋白质的NER GENIA词库,我已经尝试过阻止…停止单词列表等…我只需要知道最好的aproahc来解决这个问题。 非常感谢。