Tag: 全文搜索

使用Solr CELL的ExtractingRequestHandler从包格式索引/提取文件

你可以使用ExtractingRequestHandler和Tika与任何压缩文件格式(zip,tar,gz等)来提取内容以进行索引吗? 我正在使用curl发送solived archived.tar文件。 curl“ http:// localhost:8983 / solr / update / extract?literal.id = doc1&fmap.content = body_texts&commit = true ” -H’Content -type:application / octet-stream’ – data-binary“@ / home /archived.tar“我查询文档时得到的结果是归档中的文件名被索引为”body_texts“,但这些文件的内容未被提取或包含。 这不是我预期的行为。 参考: http : //www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example 。 当我使用相同的curl命令在存档中发送1个实际文档时,提取的内容然后存储在“body_texts”字段中。 我错过了压缩文件的步骤吗? 我在http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell中添加了所有提取依赖项,如mat所示,并且能够成功从MS Word,PDF,HTML文档中提取数据。 我正在使用以下库版本。 Solr 1.40,Solr Cell 1.4.1,Tika Core 0.4 鉴于我所读到的所有内容,此版本的Tika应支持从压缩文件中的所有文件中提取数据。 任何帮助或建议将不胜感激。

Lucene通过URL搜索

我正在存储一个包含URL字段的Document: Document doc = new Document(); doc.add(new Field(“url”, url, Field.Store.YES, Field.Index.NOT_ANALYZED)); doc.add(new Field(“text”, text, Field.Store.YES, Field.Index.ANALYZED)); doc.add(new Field(“html”, CompressionTools.compressString(html), Field.Store.YES)); 我希望能够通过其URL找到Document,但我得到0结果: Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30) Query query = new QueryParser(LUCENE_VERSION, “url”, analyzer).parse(url); IndexSearcher searcher = new IndexSearcher(index, true); TopScoreDocCollector collector = TopScoreDocCollector.create(10, true); searcher.search(query, collector); ScoreDoc[] hits = collector.topDocs().scoreDocs; // Display results for (ScoreDoc […]

MongoDB全文搜索索引:错误:文本索引太多,为什么?

我有一个问题,我有收集,我想将文本搜索索引设置为2个字段(描述和标题)。 但当我添加第二个索引时,我得到以下错误,文本搜索停止工作。 { “serverUsed” : “localhost/127.0.0.1:27017” , “ok” : 0.0 , “errmsg” : “too many text index for: testdb.users”} 当我删除一个索引搜索再次开始工作。 问题是什么? 一个集合仅支持一个字段的全文搜索索引???? 我在windows下使用当前版本的mongodb,我正在使用mongodb java驱动程序API。 谢谢

Google App Engine(Java)上的全文搜索

关于这个主题有几个线程浮动,但我认为我的用例有些不同。 我想做的事: 我的GAE / J应用程序的全文搜索组件 索引大小很小:25-50MB左右 我不需要对索引进行实时更新,定期重新索引也没问题 这是为了自动完成等,所以它需要非常快(我得到的印象是在数据存储区中实现反向索引会引入相当大的延迟) 到目前为止我的策略(只是计划,尚未尝试实施任何东西): 将Lucene与RAMDirectory一起使用 定期cron作业创建索引,将其序列化到数据存储区,存储更新ID(或时间戳) 搜索servlet在启动时加载索引并创建RAMDirectory 在每个请求上,servlet检查当前的更新ID并根据需要重新加载索引 我模糊的主要问题是如何在实例之间同步内存中的数据 – 这会起作用吗,还是我错过了什么? 另外,在我开始使用内存问题之前,我可以在多大程度上推送它? 我在GAE的RAM配额上找不到任何东西。 (这个索引很小,但我想想更多我想添加的东西) 当然,对更好方法的任何想法?

如何在Hibernate Search中搜索带通配符和空格的字段

我有一个搜索框,根据给定的输入在标题字段上执行搜索,因此用户建议所有可用的标题以插入的文本开头。它基于Lucene和Hibernate Search。 它一直工作,直到输入空间。 然后结果消失了。 例如,我希望“学习H”给我“学习Hibernate”作为结果。 但是,这不会发生。 你能告诉我我应该在这里使用什么呢? 查询生成器: QueryBuilder qBuilder = fullTextSession.getSearchFactory() .buildQueryBuilder().forEntity(LearningGoal.class).get(); Query query = qBuilder.keyword().wildcard().onField(“title”) .matching(searchString + “*”).createQuery(); BooleanQuery bQuery = new BooleanQuery(); bQuery.add(query, BooleanClause.Occur.MUST); for (LearningGoal exGoal : existingGoals) { Term omittedTerm = new Term(“id”, String.valueOf(exGoal.getId())); bQuery.add(new TermQuery(omittedTerm), BooleanClause.Occur.MUST_NOT); } @SuppressWarnings(“unused”) org.hibernate.Query hibQuery = fullTextSession.createFullTextQuery( query, LearningGoal.class); Hibernate类 : @AnalyzerDef(name = “searchtokenanalyzer”,tokenizer […]

Elasticsearch中的索引是什么

Elasticsearch中的索引是什么? 一个应用程序有多个索引还是只有一个? 假设你为一些汽车制造商建立了一个系统。 它涉及人,汽车,备件等。你有一个名为制造商的索引,或者你有一个人的索引,一个汽车索引和三个备件? 有人能解释一下吗

简单的内存全文搜索解决方案

我有一个在Java上运行的小网站,可能有十几个降价文件。 我想为用户提供全文搜索,以便快速访问这些降价文件。 由于它很小,我每次启动Web应用程序时都可以在内存中构建索引。 有什么建议吗? 注意 我想远离任何数据库解决方案,sql或nosql。 我更喜欢解决方案是作为库提供而不是构建到XX框架中

在textarea中搜索单词

我在java中构建一个自定义find and replace 。 我浏览文本文件并在textarea中加载内容。 现在我有一个textBox,我在其中输入需要搜索的文本。 搜索文本的最佳方法是什么。 我知道使用string.indexOf() ,但我还需要突出显示。 所以请帮帮我。

在Lucene中获取学期频率

有没有一种快速简便的方法可以从Lucene索引中获取术语频率,而无需通过TermVectorFrequencies类,因为这需要花费大量时间来处理大型集合? 我的意思是,是否有类似TermEnum东西,它不仅有文档频率,还有术语频率? 更新:使用TermDocs太慢了。

从Lucene索引获得最高频率条款

我需要从几个lucene索引中提取具有最高频率的术语 ,以便将它们用于某些语义分析。 所以,我想得到可能排名前30位的最常见的术语(仍然没有决定阈值,我将分析结果)和他们的每个索引计数。 我知道我可能会失去一些精确度,因为可能会丢失重复,但就目前而言,让我说我很好。 所以对于提出的解决方案,(不用说可能)速度并不重要,因为我会进行静态分析,我会强调实现的简单性 ,因为我不熟悉Lucene并且无法围绕它的一些概念。 。 我找不到任何类似的代码示例,所以具体建议(代码,伪代码,代码示例的链接……)感谢所有的建议! 谢谢!