Tag: 解析

使用jackson解析Json文件

{ “TestSuite”:{ “TestSuiteInfo”:{ “-description”:”parse” }, “TestCase”:[ { “TestCaseData”:{ “-sequence”:”sequential”, “-testNumber”:”2″, “-testCaseFile”:”testcase\\Web\\Ab.xml” } }, { “TestCaseData”:{ “-sequence”:”sequential”, “-testNumber”:”3″, “-testCaseFile”:”testcase\\Web\\BC.xml” } } ] } } 我的Pojos是: public class TestSuite { private TestSuiteInfo testSuiteInfo; private TestCase listOfTestCases; public TestSuiteInfo getTestSuiteInfo() { return testSuiteInfo; } public void setTestSuiteInfo(TestSuiteInfo testSuiteInfo) { this.testSuiteInfo = testSuiteInfo; } public TestCase getListOfTestCases() { return […]

确定PDF页面是包含文本还是纯图片

如何使用Java确定PDF页面是包含文本还是纯图片? 我搜索了很多论坛和网站,但我找不到答案。 是否可以从PDF中提取文本,以了解页面是格式图片还是文本? PdfReader reader = new PdfReader(INPUTFILE); PrintWriter out = new PrintWriter(new FileOutputStream(OUTPUTFILE)); for (int i = 1; i <= reader.getNumberOfPages(); i++) { // here I want to test the structure of the page !!!! if it's possible out.println(PdfTextExtractor.getTextFromPage(reader, i)); }

如何在java中迭代JSONArray

我想从JSONArray中提取值。 JSONArray有N个行和列。 ObjectMapper mapper = new ObjectMapper(); DynamicForm dynamicForm = new DynamicForm(); dynamicForm = dynamicForm.bindFromRequest(); Dynamic dynamic = dynamicForm.get(); //List list = new ArrayList(); //List iterate=new ArrayList(); String data = dynamic.getData().get(“content”).toString(); try { JSONArray jsonArray = new JSONArray(data); for (int i = 0; i < jsonArray.length(); i++) { System.out.println(jsonArray.get(i)); } }catch (JSONException e) { // […]

用C ++编写的语法和语义代码完成框架

这个问题比我之前的问题更精确: 用C / C ++编写的通用代码完成框架 。 我没有指明它足以得到我真正需要的答案。 我想在我的IDE中添加“Intellisense”代码完成。 我希望在C / C ++ / C ++ 11中有一个库,它可以作为语法和语义代码完成工具,并且是通用的,而不是单一语言特定的(我想为Java,C ++和将来编写完成的库) C#,Python和Javascript)。 如果这个解决方案不是一个以语言为中心的,那将是很好的 – 它应该是通用的,并且可以跨语言扩展。 (我找到了一个名为CEDET的东西,根据它的webiste是我想要的东西,但它用Lisp编写,而不是C ++。) 能帮我找到好的解决方案吗?

Java:使用SAXParser拆分大型XML文件

我正在尝试使用java的SAXParser将大型XML文件拆分为较小的文件(特别是未压缩的大约28GB的维基百科转储)。 我有一个扩展DefaultHandler的Pagehandler类: private class PageHandler extends DefaultHandler { private StringBuffer text; … @Override public void startElement(String uri, String localName, String qName, Attributes attributes) { text.append(“”); } @Override public void endElement(String uri, String localName, String qName) { text.append(“”); if (qName.equals(“page”)) { text.append(“\n”); pageCount++; writePage(); } if (pageCount >= maxPages) { rollFile(); } } @Override public void […]

Java简单句子解析器

有没有简单的方法在普通Java中创建句子解析器而不添加任何lib和jar。 解析器不应该只关注单词之间的空白,而应该更加聪明和解析:。 ! ?,识别句子何时结束等 解析后,只有真正的单词可以全部存储在db或file中,而不是任何特殊的字符。 非常感谢你提前:)

使用Stanford CoreNLP进行懒惰解析,以获得特定句子的情感

我正在寻找优化斯坦福CoreNLP情绪管道性能的方法。 因此,想要得到句子的情感,但只有那些包含特定关键词作为输入的句子。 我尝试了两种方法: 方法1:StanfordCoreNLP管道用情绪注释整个文本 我已经定义了一个注释器管道:tokenize,ssplit,parse,sentiment。 我在整篇文章中运行它,然后在每个句子中查找关键字,如果它们存在,则运行返回关键字值的方法。 虽然处理需要几秒钟,但我并不满意。 这是代码: List keywords = …; String text = …; Map sentenceSentiment = new HashMap(); Properties props = new Properties(); props.setProperty(“annotators”, “tokenize, ssplit, parse, sentiment”); props.setProperty(“parse.maxlen”, “20”); props.setProperty(“tokenize.options”, “untokenizable=noneDelete”); StanfordCoreNLP pipeline = new StanfordCoreNLP(props); Annotation annotation = pipeline.process(text); // takes 2 seconds!!!! List sentences = annotation.get(CoreAnnotations.SentencesAnnotation.class); for (int i=0; […]

通过斯坦福解析器提取所有名词,形容词forms和文本

我试图通过斯坦福解析器从给定的文本中提取所有名词和形容词。 我目前的尝试是在Tree-Object的getChildrenAsList()中使用模式匹配来定位如下内容: (NN paper), (NN algorithm), (NN information), … 并将它们保存在一个数组中。 输入句子: 在本文中,我们提出了一种从任意文本中提取语义信息的算法。 结果 – 字符串: [(S (PP (IN In) (NP (DT this) (NN paper))) (NP (PRP we)) (VP (VBP present) (NP (NP (DT an) (NN algorithm)) (SBAR (WHNP (WDT that)) (S (VP (VBD extracts) (NP (JJ semantic) (NN information)) (PP (IN from) (NP (DT an) […]

求引文解析器

我需要一个解析器来扫描学术文本,提取引文,并将这些引用解析为它们的组成部分(作者,标题,出版日期等)。 我尝试过Paracite,但速度慢得令人沮丧,并没有产生高质量的结果。 任何语言都可以,但Java是首选。

接受05/05/1999和5/5/1999等的日期时间解析

有没有一种简单的方法来解析可能是MM / DD / yyyy,M / D / yyyy或某种组合的日期? 即零在一个数字日或月之前是可选的。 要手动完成,可以使用: String[] dateFields = dateString.split(“/”); int month = Integer.parseInt(dateFields[0]); int day = Integer.parseInt(dateFields[1]); int year = Integer.parseInt(dateFields[2]); 并validation: dateString.matches(“\\d\\d?/\\d\\d?/\\d\\d\\d\\d”) 是否会调用SimpleDateFormat或JodaTime来处理这个问题?