java – MongoDB + Solr表演

我一直在四处寻找如何将MongoDB与Solr结合使用,这里的一些问题有部分反应,但没有什么真正具体的(更像是理论)。 在我的应用程序中,我将在MongoDB中存储大量的文档(可能高达数亿),我想对这些文档的某些属性实现全文搜索,所以我猜Solr是最好的方法这个。

我想知道的是我应该如何配置/执行所有内容以使其具有良好的性能? 现在,这就是我做的事(我知道它不是最优的):

1-在MongoDB中插入对象时,我将其添加到Solr

SolrServer server = getServer(); SolrInputDocument document = new SolrInputDocument(); document.addField("id", documentId); ... server.add(document); server.commit(); 

2-当更新对象的属性时,由于Solr不能只更新一个字段,首先我从MongoDB中检索对象然后用对象和新属性的所有属性更新Solr索引并执行类似的操作

 StreamingUpdateSolrServer update = new StreamingUpdateSolrServer(url, 1, 0); SolrInputDocument document = new SolrInputDocument(); document.addField("id", documentId); ... update.add(document); update.commit(); 

3-查询时,首先我查询Solr,然后在检索文档列表SolrDocumentList我会浏览每个文档,并且:

  1. 获取文档的ID
  2. 从MongoDB获取具有相同id的对象,以便能够从那里检索属性

4-删除时,我还没有完成那部分,并且不确定如何在Java中完成

那么有人建议如何以更有效的方式为这里描述的每个场景做到这一点? 喜欢这样做的过程,当在Solr中有大量文档并一次添加一个文档时,它不需要1小时来重建索引? 我的要求是用户可能希望一次添加一个文档,我希望他们能够立即检索它

你的方法实际上很好。 像Compass这样的流行框架正在执行您在较低级别描述的内容,以便自动镜像到通过ORM框架执行的索引更改(请参阅http://www.compass-project.org/overview.html )。

除了你描述的内容之外,我还会定期重新索引MongoDB中的所有数据,以确保Solr和Mongo同步(可能没有你想象的那么长,具体取决于文档的数量,字段的数量,每个字段的令牌数量和分析器的性能:我经常使用复杂的分析器在不到15分钟的时间内创建5到8百万个文档(大约20个字段,但文本字段很短)的索引,只需确保您的RAM缓冲区不是太小,在添加所有文档之前不会提交/优化)。

关于性能,提交是昂贵的并且优化是非常昂贵的。 根据对您最重要的事情,您可以在Solrconfig.xml中更改mergefactor的值(高值可提高写入性能,而低值可提高读取性能,10值是一个很好的值)。

你似乎害怕索引构建时间。 但是,由于Lucene索引存储是基于段的,因此写吞吐量不应过多依赖于索引的大小(http://lucene.apache.org/java/2_3_2/fileformats.html)。 但是,预热时间会增加,所以你应该确保

  • 有典型的(特别是对于加载fieldcaches的排序)但是在firstSearcher和solrconfig.xml配置文件中的newSearcher参数中没有太复杂的查询,
  • useColdSearcher设置为
    • 为了获得良好的搜索性能,或者为false
    • 如果您希望以较慢的搜索价格更快地考虑对索引执行的更改,则为true。

此外,如果数据在写入MongoDB后仅几个X毫秒就可以搜索,那么你可以使用UpdateHandler的commitWithinfunction。 这样Solr就不必经常提交。

有关Solr性能因素的更多信息,请参阅http://wiki.apache.org/solr/SolrPerformanceFactors

要删除文档,您可以按文档ID(在schema.xml中定义)或通过查询删除: http : //lucene.apache.org/solr/api/org/apache/solr/client/solrj/SolrServer.html

  1. 您还可以等待更多文档并仅在每X分钟为其编制索引。 (当然这在很大程度上取决于您的应用和要求)

  2. 如果您的文档很小并且您不需要所有数据(存储在MongoDB中),您可以通过存储它们而不是索引来仅在Solr文档中放置所需的字段

indexed ="false" stored ="true"/>