Tag: 文本解析

如何从文本文件中的每一行拆分单个列值?

我在需要解析的ASCII文本文件中有行。 列由可变数量的空格分隔,例如: column1 column2 column3 我如何拆分此行以返回仅包含值的数组? 谢谢

使用OCR的PDF文本提取方法

有人试图使用OCR库和Java从PDF中提取文本吗? 你发现什么是最可靠的文本提取库。 我见过的大多数方法(tesseract,GOCR)都是需要编写一些JNI代码的C库。 我熟悉pdfbox,它现在是0.8.x版本的Apache孵化器项目,但它的文本提取并不总是准确的。 我正在寻找一种更可靠的替代方法。 我还没有尝试过Asprise JavaPDF,在尝试这个过程中,但想了解更多有关OCR方法的信息(如果可能的话)。 任何帮助,将不胜感激。

将自然语言描述解析为结构化数据的策略

我有一套要求,我正在寻找最好的基于Java的策略/ algorthm /软件。 基本上,我想采用自然英语中真人输入的一组配方成分,并将元数据解析为结构化格式(请参阅下面的要求以了解我正在尝试做什么)。 我在这里和其他地方环顾四周,但没有找到任何可以提供关于方向的高级建议。 所以,我会把它交给聪明的人:-): 解决这个问题的最佳/最简单的方法是什么? 我应该使用自然语言解析器,dsl,lucene / solr或其他一些工具/技术吗? NLP似乎可能有效,但它看起来非常复杂。 我宁愿不花费大量时间深入探究,只是为了发现它不能做我正在寻找的东西,或者有一个更简单的解决方案。 要求 鉴于这些食谱成分说明…. “8杯混合蔬菜(约5盎司)” “八只去皮的鸡大腿(大约1¼磅)” “6.5汤匙特级初榨橄榄油” “大约6盎司薄切片熏鲑鱼,切成条状” “2只整只鸡(每只3.5磅)” “每个冷冻切碎的菠菜20盎司,解冻” “.5杯帕玛森芝士,磨碎” “大约.5杯山核桃,烤好的地面” “.5杯Dixie晚餐面包屑混合,平原” “8个蒜瓣,切碎(4茶匙)” “8个葱,切成2块” 我想把它变成这个…. | —– | ——— | ————- | ——————- —— | ——– | ———– | ———————- ———- | ————- | | | 措施| | | 重量| 重量| | | | […]

Java:如何通过忽略“\ n”逐行读取文件

我正在尝试每行读取一个制表符分隔的文本文件行。 使用回车符(“\ r \ n”)分隔行,并在制表符分隔的文本字段中允许使用LineFeed(\“n”)。 由于我想读取每行的文件行,我希望我的程序忽略一个独立的“\ n”。 不幸的是, BufferedReader使用两种可能性来分隔线。 如何修改我的代码,以便忽略独立的“\ n”? try { BufferedReader in = new BufferedReader(new FileReader(flatFile)); String line = null; while ((line = in.readLine()) != null) { String cells[] = line.split(“\t”); System.out.println(cells.length); System.out.println(line); } in.close(); } catch (IOException e) { e.printStackTrace(); }

如何在Java中提取多项式系数?

以字符串-2x^2+3x^1+6为例,如何从存储在字符串中的等式中提取-2和6 ?

如何将文本解析成句子

我试图将一个段落分解成句子。 这是我到目前为止的代码: import java.util.*; public class StringSplit { public static void main(String args[]) throws Exception{ String testString = “The outcome of the negotiations is vital, because the current tax levels signed into law by President George W. Bush expire on Dec. 31. Unless Congress acts, tax rates on virtually all Americans who pay income taxes […]