Tag: unicode

在Java中过滤非法XML字符

XML规范定义了XML文档中允许的Unicode字符子集: http : //www.w3.org/TR/REC-xml/#charsets 。 如何从Java中的String中过滤掉这些字符? 简单的测试案例: Assert.equals(“”, filterIllegalXML(“”+Character.valueOf((char) 2)))

如何将日文字符分类为汉字或假名?

鉴于下面的文字,我如何将每个角色分类为假名或汉字 ? 谁か确认上记これらのフ 得到这样的东西 誰 – kanji か – kana 確 – kanji 認 – kanji 上 – kanji 記 – kanji こ – kana れ – kana ら – kana の – kana フ – kana (对不起,如果我做错了。)

Font.getNumGlyphs()返回的数字

Font.getNumGlyphs()返回的数字实际代表什么? 文档。 州: 返回此Font的字形数。 此Font字形代码范围从0到getNumGlyphs() – 1 。 我认为它表示0和Character.MAX_CODE_POINT之间的代码点数, Font.canDisplay(codePoint)返回true 。 但是下面代码的输出表明不然。 码 注意:对于超过200种字体,要经过100万个+代码点( countGlyphs方法),这里需要30秒。 运行时请耐心等待。 import java.awt.*; import java.util.Date; import javax.swing.*; import javax.swing.table.DefaultTableModel; class FontGlyphCheck { public static int countGlyphs(Font f) { int count = 0; for (int ii = 0; ii < Character.MAX_CODE_POINT; ii++) { if (f.canDisplay(ii)) { count++; } } return count; […]

在java中写入unicode(Sindhi)的keyListener的实现问题

我希望通过这种方式在jTextField上实现keyListener来使用unicode: textField.addKeyListener(new KeyListener() { @Override public void keyTyped(KeyEvent evt) { // TODO Auto-generated method stub } @Override public void keyReleased(KeyEvent arg0) { // TODO Auto-generated method stub } @Override public void keyPressed(KeyEvent evt) { // TODO Auto-generated method stub char var = evt.getKeyChar(); if(var == ‘a’){ String values = urlTextField.getText() + Sindhi.ALIF; urlTextField.setText(values); } } […]

比较Junit中的unicode字符

在我的一些流程中,我在某些流程中遇到了unicode字符的问题。 所以我修复了流程并添加了一个测试。 assertEquals(“Björk”, buyingOption.getArtist()); purchaseOption.getArtist()将返回相同的名称,这里是一个片段: 但junit将失败并显示以下消息: junit.framework.ComparisonFailure: null Expected :Bj?rk Actual :Bj?rk at com.delver.update.system.AECSystemTest.basicOperationtsTest1(AECSystemTest.java:40) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)

Java PDFBOX文本编码

我尝试将一些数据从我的Java应用程序导出到pdf文件。 我决定使用pdfBox库,但我意识到我无法正确地将希腊字符显示在pdf文件中。 有没有办法设置编码? 到utf8,还是iso-8859-7? 我尝试像PdFontEncoding或编码,但我没有得到任何东西。 感谢您的时间。

我如何用Java读取俄语文件?

我尝试为此添加UTF-8,但它没有成功。 我应该怎么做用Java阅读俄文文件? FileInputStream fstream1 = new FileInputStream(“russian.txt”); DataInputStream in = new DataInputStream(fstream1); BufferedReader br = new BufferedReader(new InputStreamReader(in,”UTF-8″));

如何使用java和PDFBox从PDF获取字符的Unicode

我正在使用Apache PDFBox和Java来解析PDF并从中获取所有信息。 提取文本仅适用于英语。 对于其他语言,我只获得一些特殊字符。 例如,提取阿拉伯字符ش将给出字符串:“?on printing。当我将计算机的”区域和语言“从英语更改为阿拉伯语时工作正常。所以我认为提取字符的Unicode将解决这个问题问题。请帮我从PDF获取字符的Unicode或建议我解决这个问题的一些解决方案。

使用java和itext生成带有Unicode字符的PDF文档

我尝试调整一些额外的Unicode符号的itext示例中的标准代码。 虽然使用的字体支持这些字符,但我没有得到任何结果。 (最后一个字符“\ u2609”未打印为pdf) 提前致谢! /* * These examples are written by Bruno Lowagie in the context of an article about fonts. */ package sandbox.fonts.tutorial; import com.itextpdf.text.Document; import com.itextpdf.text.DocumentException; import com.itextpdf.text.Font; import com.itextpdf.text.FontFactory; import com.itextpdf.text.Paragraph; import com.itextpdf.text.pdf.BaseFont; import com.itextpdf.text.pdf.PdfWriter; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import sandbox.WrapToTest; /** * @author Bruno Lowagie (iText Software) */ […]

使用iText5在生成的PDF中使用unicode字符

我对生成的PDF中的unicode字符有疑问。 在我自己的工作站上一切正常,但在测试环境中出了问题。 代码插入值如下: Font boldDefaultFont = FontFactory.getFont(FontFactory.HELVETICA, 10, Font.BOLD); // … PdfPCell headerCell = new PdfPCell(); // unit.getName() returns “°C” Phrase header = new Phrase(unit.getName(), boldDefaultFont); headerCell.addElement(header); Java源代码是UTF-8。 当这在我的环境中运行时(java 1.6.0_18,WinXP)单元格包含°C正如我所期望的那样,但在测试环境(java 1.6.0_18,Win2003)中,结果是°C 。 我已经发现这是一个编码问题(UTF-8’°’是0xc2b0,等于iso-8859-1中的’°’)。 现在我试过以下: 1)将-Dfile.encoding=utf8添加到java选项(在任一环境中都没有效果) 2)将ARIALUNI.TTF添加到测试环境C:\ WINDOWS \ Fonts(无效) 3)将unit.getName()编码为iso-8859-1,但它使得唱歌程度在我的机器中消失。 查看pdf的环境无效,在我的工作站上生成的pdf可以很好地显示在各处,反之亦然。 有没有人有这方面的经验? 我打赌有一种方法可以在两种环境中使用它。