Tag: 文本

是否有任何Java OCR工具将文本图像转换为可编辑的文本文件?

我正在开展一个项目,需要拍摄文本(从任何文本的硬拷贝),并将该文本转换为文本文件。 然后我想使用该文本文件做一些不同的事情,例如提供新闻文章的超链接或允许用户编辑文档。 到目前为止我尝试过的工具是sourceforge.net的Java OCR,它可以很好地处理包中提供的图像。 但是当我拍摄自己的文字时,它根本不起作用。 我应该实施一些培训流程吗? 如果是这样,有人知道如何实施它吗? 任何帮助都会有很长的路要走。 谢谢!

将长文本分隔为viewpager的页面

我在这个问题中实现了messureText方法,以便在viewpager中呈现之前将长文本分隔成具有指定大小的页面。 我正在做一个带有增量字符数的while循环来获得所需的文本块,但它似乎不是最好的解决方案。 有什么建议可以改善这个计算的表现吗? p / s:我指的是Wattpad应用看到它做得这么快但不知道怎么做?

求引文解析器

我需要一个解析器来扫描学术文本,提取引文,并将这些引用解析为它们的组成部分(作者,标题,出版日期等)。 我尝试过Paracite,但速度慢得令人沮丧,并没有产生高质量的结果。 任何语言都可以,但Java是首选。

在java中使用大字符串时StringBuilder内存不足错误

我从String test += str; test成倍增长,成千上万的角色。 运行需要45分钟,可能是因为创建了大字符串并删除了垃圾。 然后,我将这样的输入交错,使其达到30秒。 这似乎是廉价的方式,但它运作良好: if (secondDump.length() > 50) { intermedDump = intermedDump + secondDump; secondDump = “”; } if (intermedDump.length() > 100) { thirdDump = thirdDump + intermedDump; intermedDump = “”; } if (thirdDump.length() > 500) { fourthDump = fourthDump + thirdDump; thirdDump = “”; } if (fourthDump.length() > 1000) { […]

边界框中的itext多行文本

有没有人知道,如何在iText中在边界框中添加多行文字(指定坐标)。 我试过了 cb.showTextAligned( PdfContentByte.ALIGN_LEFT, text, bounds.getLeft(), TOTAL_HEIGHT-bounds.getTop(), 0 ); 但它不支持换行。 我也试过了 PdfContentByte cb = writer.getDirectContent(); cb.moveText(300,400); document.add(new Paragraph(“TEST paragraph\nNewline”)); 这支持换行但不对moveText作出反应,因此我不知道如何将它放在给定位置或更好:边界框。 我怀疑块或PdfTemplate或者表可能有帮助,但我(还)不知道如何把它放在一起。 TIA寻求帮助。

根据文本调整JButton和其他组件的大小

如何在运行时调整JButton的大小以使其适应setSize给出的文本? 我已经做了一些搜索,这是我到目前为止提出的代码。 这会变成一种实用方法吗? FontMetrics metrics = getFontMetrics( font ); int width = metrics.stringWidth( string ); PS:没有使用布局管理器。

基于内容的文本宽度估算算法

这是一个很长的镜头,但是有没有人知道根据其内容估算和分类文本宽度(对于可变宽度字体)的算法? 例如,我想知道iiiiiiii不像abcdefgh那么宽,而abcdefgh又不像WWWWWWWW那么宽,即使所有三个字符串的长度都是8个字符。 这实际上是尝试将一些智能构建到字符串截断方法中,该方法目前正在截断视觉上宽的字符串,但也不必要地截断视觉上狭窄的字符串,因为两个字符串包含相同数量的字符。 算法可能足以将输入字符串分类为窄 , 正常或宽 ,然后根据需要进行截断。 这个问题并不是特定于语言,但如果有算法,那么我将用Java实现它。 这适用于Web应用程序。 我知道SO上有答案可以解决这个问题,使用JavaScript来获取包含div元素的宽度,但我想知道服务器端解决方案是否可行。

用于文本规范化的Java库

我正在寻找允许文本“标准化”的java库。 类似于标准的Normalizer ,但更宽(类似于utf8proc LUMP)。 它应该将所有类型的特殊字符替换为ASCII等效字符(如果可能的话)。 代码为32的所有空间变体,所有变量的缺陷(长,短,薄等)到代码45等等。

exception处理,创建日志并在JAVA中继续程序

我正在JAVA中设计一个程序,它可以捕获大约10次迭代的结果。 在这些迭代结束时,必须将所有结果写入日志文件。 如果发生任何exception,那么它应该写在我的文本文件上,其次程序不能停止,它必须继续,直到最后一次迭代完成… 也就是说 – 如果在任何迭代的任何部分发生某些错误, 程序就不能在这里停止 。 必须在我的结果中通过错误名称提及错误,并且必须继续并更新我的日志文件。 我的代码到现在有点冗长…使用try-catch,try块正在进行我的计算并编写我的文本文件,但我需要如果发生一些exception,我的程序一定不能停止,并且必须在我的日志中更新该exception文件。

方法add in ArrayList 不适用于参数(String)

我正在尝试读取一个.txt文件,其中包含几行,其中每行都有一个专业的carreer名称。 我已经创建了一个扫描仪,但每当我想添加扫描仪刚刚读取的内容并尝试将其添加到arrayList时,会弹出此错误 类型ArrayList中的方法add(ClassName)不适用于参数(String) ArrayList clista = new ArrayList(); Scanner s = new Scanner(new File(“texto.txt”)); while(s.hasNextLine()) { **clista.add(s.nextLine());** } 这是另一个类中的一段代码; 粗体标记的行是弹出错误的位置。 clista只有2个属性,但我想将它们添加到列表中,只填充一个String元素,另一个为空(甚至可能吗?)