Tag: 文本

日食JAVA OCR API开源

我对OCR的东西一无所知。 我只需要(如果它甚至可能)将.jar导入到Eclipse中,我可以为输入提供图像(.bmp,.tiff,.jpeg),它会输出一个包含图像文本内容的字符串。 这不是validation码或手写,只是一些字母的简单“照片”。 开源解决方案受到赞赏。 我看到像Tess4j或JavaOCR这样的项目,但它们处理起来有点复杂:( 有人有建议吗? 更新:我发现AspriseOCR非常易于使用。 只需将.jar导入构建路径并调用方法即可。 非常好! 但是……我不能在我自己的项目中使用它! 你知道任何库像Asprise一样简单(我不需要编译任何东西,或者有任何类型的培训:只需导入就可以了!)

Java:Apache POI:我可以从MS Word(.doc)文件中获取干净的文本吗?

当我使用Apache POI时,我(以编程方式)从MS Word文件获取的字符串与我使用MS Word打开文件时可以看到的文本不同。 使用以下代码时: File someFile = new File(“some\\path\\MSWFile.doc”); InputStream inputStrm = new FileInputStream(someFile); HWPFDocument wordDoc = new HWPFDocument(inputStrm); System.out.println(wordDoc.getText()); 输出是一行包含许多“无效”字符(是的,“盒子”),以及许多不需要的字符串,如“ FORMTEXT ”,“ HYPERLINK \l “_Toc##########” ”( ‘#’是数字数字),“ PAGEREF _Toc########## \h 4 ”等。 以下代码“修复”了单行问题,但维护了所有无效字符和不需要的文本: File someFile = new File(“some\\path\\MSWFile.doc”); InputStream inputStrm = new FileInputStream(someFile); WordExtractor wordExtractor = new WordExtractor(inputStrm); for(String paragraph:wordExtractor.getParagraphText()){ System.out.println(paragraph); } 我不知道我是否使用了错误的方法来提取文本,但这就是我在查看POI的快速指南时所提出的 […]

如何使用Java中的tEXt或iTXt块保存PNG?

我目前正在使用javax.imageio.ImageIO来编写PNG文件。 我想要包含一个tEXt块(实际上是这里列出的任何块),但是看不到这样做的方法。 通过com.sun.imageio.plugins.png.PNGMetadata的外观,它应该是可能的。 我应该非常感谢任何线索或答案。 M.

如何确定文件是否为PDF文件?

我在Java中使用PdfBox从PDF文件中提取文本。 提供的某些输入文件无效,PDFTextStripper会暂停这些文件。 是否有一种干净的方法来检查提供的文件是否确实是有效的PDF?

从文本文件中提取单词

假设你有一个像这样的文本文件: http : //www.gutenberg.org/files/17921/17921-8.txt 有没有人有一个好的算法或开源代码从文本文件中提取单词? 如何获取所有单词,同时避免使用特殊字符,并保留“它是”等内容…… 我在Java工作。 谢谢

Java文本分析库

我正在寻找一个java驱动的解决方案,以满足分析句子的需求,以记录关键词是正面还是负面使用。 即关键词可能是’cabbages’和句子: – ‘我喜欢卷心菜但不喜欢豌豆’ 我想要一种java文本分析器来记录这个积极的东西。 lucene(Hibernate-Search)库可以用于此吗? 有什么想法吗?

文本相似度算法

我有两个字幕文件。 我需要一个函数来告诉它们是代表相同的文本还是相似的文本 有时只有一个文件中有“风正在吹……音乐在播放”这样的评论。 但80%的内容都是一样的。 该函数必须返回TRUE(文件表示相同的文本)。 有时会出现像1这样的拼写错误,而不是l(1-L),就像这里一样: 她只有行李 。 当然,这意味着函数必须返回TRUE。 我的意见: 该函数应返回文本相似度的百分比 – 同意 “所有人都很开心”和“所有人都不高兴” – 这里被认为是拼写错误,因此被视为同一文本。 确切地说,函数返回的百分比将更低,但足够高以表示短语是相似的 请考虑是否要在整个文件或搜索字符串上应用Levenshtein – 不确定Levenshtein,但算法必须作为一个整体应用于文件。 不过,这将是一个很长的字符串。

读取文本文件并将其拆分为数组 – Android

我已经完成了很多这些问题,但似乎仍然无法弄明白。 我有一个文本文件分成行。 每行由5个以“,”分隔的数据组成。 我试图读取此文件并将信息拆分为这种forms的字符串数组: String [][] xyz = new String [5][100]; 请有人帮我解决一个简单的解决方案!? 谢谢!!! 🙂 数据示例: John,22,1953,Japan,Green Anna,18,2012,Mexico,Blue Sam,34,1976,San Francisco,Pink 示例代码: public void readFile(){ AssetManager manger; String line = null; try { manger = getAssets(); InputStream is = manger.open(“data.txt”); InputStreamReader isr = new InputStreamReader(is); BufferedReader br = new BufferedReader(isr); while ((line = br.readLine()) != null) { […]

什么是JTextComponents中的EditorKits以及它们的工作是什么?

我正在研究Swing程序中文本组件的结构。 据我所知, JTextComponent主要分为视图和模型。 该模型是实现Document的类的实例,包含所有文本并提供操作它的方法,以及View以可视方式呈现文本。 但是,我EditorKit知道使用EditorKit确切位置,方式和原因。 我不确定它是否封装(’拥有’)模型( Document ),或者Document是否封装它。 并且不确定视图在哪里适合所有这些。 所以有两个问题: 1-请描述JTextComponents视图, Document和EditorKit之间的关系。 什么包含什么,什么与什么相互作用,以及为什么? 2-请解释EditorKit的function和作用。 谢谢您的帮助

如何读取JAR中的文本文件?

我试图做的是在程序的JAR中存储一个文本文件(不会改变),以便可以读取它。 文本文件的目的是它将被我的一个类读入,文本文件的内容将被添加到JEditorPane 。 该文件基本上是一个教程,当用户点击选项阅读教程时,文件内容将被读取并显示在弹出的新窗口中。 我有它的GUI部分,但只要将文件存储在JAR中以便可以访问它,我就迷失了。 我已经读过使用InputStream会起作用,但在尝试了一些事情之后我还没有让它工作。 我还将图像存储在JAR中,以用作GUI窗口的图标。 这完成了: private Image icon = new ImageIcon(getClass() .getResource(“resources/cricket.jpg”)).getImage(); 但是,这在尝试获取文件时不起作用: private File file = new File(getClass.getResource(“resources/howto.txt”)); 这是我现在的class级: public class HowToScreen extends JFrame{ /** * */ private static final long serialVersionUID = -3760362453964229085L; private JEditorPane howtoScreen = new JEditorPane(“text/html”, “”); private Image icon = new ImageIcon(getClass().getResource(“resources/cricket.jpg”)).getImage(); private BufferedReader txtReader = […]