Tag: solr

使用Solr CELL的ExtractingRequestHandler从包格式索引/提取文件

你可以使用ExtractingRequestHandler和Tika与任何压缩文件格式(zip,tar,gz等)来提取内容以进行索引吗? 我正在使用curl发送solived archived.tar文件。 curl“ http:// localhost:8983 / solr / update / extract?literal.id = doc1&fmap.content = body_texts&commit = true ” -H’Content -type:application / octet-stream’ – data-binary“@ / home /archived.tar“我查询文档时得到的结果是归档中的文件名被索引为”body_texts“,但这些文件的内容未被提取或包含。 这不是我预期的行为。 参考: http : //www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example 。 当我使用相同的curl命令在存档中发送1个实际文档时,提取的内容然后存储在“body_texts”字段中。 我错过了压缩文件的步骤吗? 我在http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell中添加了所有提取依赖项,如mat所示,并且能够成功从MS Word,PDF,HTML文档中提取数据。 我正在使用以下库版本。 Solr 1.40,Solr Cell 1.4.1,Tika Core 0.4 鉴于我所读到的所有内容,此版本的Tika应支持从压缩文件中的所有文件中提取数据。 任何帮助或建议将不胜感激。

具有Solr 4.1多核的Spring Data Solr

Trying to implement Spring-Data-Solr with Solr 4.1 multicores, 在服务器启动时获得以下exception,我猜它期望在某处使用默认构造函数。 那么,是否有一个spring-data-solr与solr muticores实现的限制,这是我的实现, 资料库 public interface MembershipDocumentRepository extends CustomMembershipDocumentRepository, SolrCrudRepository { } created ‘repository’ manually instead of autowiring/injection……. @Service public class RepositoryMembershipIndexService implements MembershipIndexService { @Autowired private SolrTemplate solrMembershipTemplate; private MembershipDocumentRepository repository = new SolrRepositoryFactory( this.solrMembershipTemplate) .getRepository(MembershipDocumentRepository.class); @Transactional @Override public void addToIndex(Membership membershipEntry) { MembershipDocument document = […]

使用Spring Solr数据或不使用灵活请求作为备份?

我想在Spring实现一个与我当前的Solr或SolrCloud交互的应用程序。 我考虑过使用Spring Data Solr。 但是,如果我只运行这样的查询,我认为还没有实现CloudSolrServer: http://localhost:8983/solr/replication?command=backup 并检查备份是否完成(我将执行get请求,解析JSON并将看到上次备份时间是否已更改)如何将其与Spring Data Solr集成? 我的意思是在我的情况下使用Spring + Solrj而不是Spring Data Solr更有意义(那就是我想做更灵活的事情,只有在使用Spring的Solr上进行CRUD操作)?

SLF4J的多个绑定

我在spring boot应用程序中遇到以下错误: SLF4J:类路径包含多个SLF4J绑定。 SLF4J:在[jar:file:/opt/tomcat/webapps/ROOT/WEB-INF/lib/slf4j-simple-1.7.13.jar!/org/slf4j/impl/StaticLoggerBinder.class]中发现绑定SLF4J:发现绑定在[jar:file:/opt/tomcat/webapps/ROOT/WEB-INF/lib/logback-classic-1.1.3.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J:见http:// www .slf4j.org / codes.html#multiple_bindings的解释。 我去了链接,试图从我认为导入它的pom中删除slf4j-simple-1.7.13和logback-classic但它没有用。 org.apache.solr solr-solrj ${solrj.version} org.slf4j slf4j-api 和 org.apache.solr solr-solrj ${solrj.version} ch.qos.logback logback-classic Solr J版: 5.2.1 如何确定这是否是正确的违规模块? 有什么我做错了吗? pom文件使用我们自己创建的spring boot父级。 也许这就是需要排除的地方? 这是org.slf4j的依赖树: [INFO] [INFO] — maven-dependency-plugin:2.8:tree (default-cli) @ some-service — [INFO] com.company.io.some.service:some-service:war:1.0.0-SNAPSHOT [INFO] +- com.company.io.commons:commons-mongo:jar:1.0.0:compile [INFO] | \- com.company.io.commons:discovery-schema:jar:1.0.0:compile [INFO] | +- com.company.io.commons:commons-schema:jar:1.0.0:compile [INFO] | | \- […]

SolrJetty日志记录 – 如何使自定义日志格式化程序工作?

我在Jetty 6上运行的Linux上有一个Solr服务器,我正在尝试为java日志记录设置自定义格式化程序,但我似乎无法识别我的自定义类。 我是Java的新手,所以引用它可能是我如何导出我的类或类似的问题。 注意这几乎是可以在这里找到的相同问题,但是那里的答案没有帮助,因为我有一个公共的无参数构造函数。 我的格式化程序如下所示(如此处所述): package myapp.solr; import java.text.MessageFormat; import java.util.Date; import java.util.logging.Formatter; import java.util.logging.LogRecord; public class LogFormatter extends Formatter { private static final MessageFormat fmt = new MessageFormat(“{0,date,yyyy-MM-dd HH:mm:ss} {1} [{2}] {3}\n”); public LogFormatter() { super(); } @Override public String format(LogRecord record) { Object[] args = new Object[5]; args[0] = new Date(record.getMillis()); args[1] = […]

无法启动DSE搜索的solr方面

我无法启动DSE搜索的solr方面,当我执行时,我得到以下exception消息,当我执行bin / dse cassandra启动cassandra服务启动但不是solr,是否有人有任何指导提供给我我知道我错过了一些东西: bin / dse cassandra -s 信息: Cannot start node if snitch’s data center (Solr) differs from previous data center (Cassandra). Please fix the snitch configuration, decommission and rebootstrap this node or use the flag -Dcassandra.ignore_dc=true. at org.apache.cassandra.db.SystemKeyspace.checkHealth(SystemKeyspace.java:629) ~[cassandra-all-2.1.12.1046.jar:2.1.12.1046] at org.apache.cassandra.service.CassandraDaemon.setup(CassandraDaemon.java:290) [cassandra-all-2.1.12.1046.jar:2.1.12.1046] at com.datastax.bdp.server.DseDaemon.setup(DseDaemon.java:329) [dse-4.7.7.jar:4.7.7] at org.apache.cassandra.service.CassandraDaemon.activate(CassandraDaemon.java:564) [cassandra-all-2.1.12.1046.jar:2.1.12.1046] at com.datastax.bdp.DseModule.main(DseModule.java:75) [dse-4.7.7.jar:4.7.7]

使用Apache Tika在solr中的PDF文件的ContentExtraction

我试图使用以下教程http://wiki.apache.org/solr/ExtractingRequestHandler索引solr中的PDF文件但是每次我发出命令 java -jar post.jar *.pdf 它说一些org.apache.solr.common.SolrException:无效的UTF-8中间字节0xe3错误请帮我将PDF索引到solr server.Is还有其他整合然后tika可以帮助我。

solr无法删除任何内容

我正在尝试删除我的solr服务器上的文档,但它不起作用,我没有得到任何错误。 我尝试通过浏览器,curl和solrj删除,没有任何作用。 (这里解释的浏览器和curl: Solr删除因某些原因无效 ) 我的solrj代码是: server.deleteByQuery(“*:*”); server.deleteById(“*”); server.deleteById(“guid:*”); server.commit(true, true); UpdateRequest update = new UpdateRequest(); update.deleteByQuery(“*:*”); update.setCommitWithin(0); server.request(update); server.commit(true, true); SolrQuery query = new SolrQuery(“*:*”);//Search for everything/anything query.setRows(10); query.setRequestHandler(“/query”); QueryResponse qr = server.query(query); SolrDocumentList result = qr.getResults(); for (SolrDocument doc : result) { Object id = doc.get(“link”); String names = (String) doc.get(“description”); System.out.println(id + […]

如何调用solr来优化使用java代码

不在shell下我想使用Java代码调用优化,并在优化过程完成时获得通知。

如何使用solrj将一个文档添加到solr索引?

我可以使用以下代码重新索引整个solr核心: public void indexSolr() throws SolrServerException, IOException { HttpSolrServer solr = new HttpSolrServer(solrIndexPath); logger.info(“Indexing fcv solr at ” + solrIndexPath); // reindex to pickup new articles ModifiableSolrParams params = new ModifiableSolrParams(); params.set(“qt”, “/” + solrDataImportPath); params.set(“command”, “full-import”); params.set(“clean”, “true”); params.set(“commit”, “true”); solr.query(params); } 如何只将一个文档插入索引而不必索引整个文档?