Tag: unicode

如何在Java中编写3字节的unicode文字？: 我想用Java编写unicode文字U + 10428。 http://www.marathon-studios.com/unicode/U10428/Deseret_Small_Letter_Long_I 我试过’\ u10428’并且它没有编译。

如何从PDF中提取文本？: 我需要从罗马尼亚语的PDF中提取文本。使用pdfBox或Snowtide无法正确提取符号：ŢţŞşĂăÎîÂ。这是一个不起作用的示例文件： ftp ： //ftp.logos.md/Biblioteca/_Colectie_RO/2nefon.pdf 有什么建议么？

汉字在Mac终端显示为问号: 我试图使用Java文件从数据库中检索一些UTF-8单编码中文字符。当我这样做时，字符将作为问号返回。但是，当我显示数据库中的字符时（使用select * from … ），字符会正常显示。当我在包含中文字符的Java文件中打印字符串时，它们也会正常打印。我在Eclipse中遇到了这个问题：当我运行程序时，字符被打印为问号。但是，当我以UTF-8格式保存Java文件时，此问题得以解决。在终端中运行“locale”当前返回： LANG=”en_GB.UTF-8″ LC_COLLATE=”en_GB.UTF-8″ LC_CTYPE=”en_GB.UTF-8″ LC_MESSAGES=”en_GB.UTF-8″ LC_MONETARY=”en_GB.UTF-8″ LC_NUMERIC=”en_GB.UTF-8″ LC_TIME=”en_GB.UTF-8″ LC_ALL= 我也尝试使用这个编译我的java文件： javac -encoding UTF-8 [java file] 但是，输出仍然是问号。奇怪的是它有时只会显示角色。有没有人对此有解释？或者甚至更好，如何解决这个问题，以便正确显示字符？

在Windows控制台中从Java代码问题中打印出unicode: 我在Windows控制台中打印出unicode符号时遇到问题。这是打印出unicode符号值的java代码; System.out.print(“\u22A2 “); 当我在Eclipse中使用UTF-8编码设置运行程序时，问题不存在，但是当涉及到Windows控制台时，符号会被问号替换。以下是为了尝试克服这个问题，没有成功; 将Windows控制台的字体更改为Lucida Console。每次运行Windows控制台时，我都会更改编码设置，即使用chcp 65001 我尝试了几次的额外步骤是使用参数运行java文件，即java -Dfile.encoding=UTF-8 Filter （其中“Filter”是类的名称）

Java：如何从字符串“\ u00C3”等创建unicode: 我有一个文件，其字符串手写为\ u00C3。我想创建一个由java中的unicode表示的unicode字符。我试过但找不到怎么样。帮帮我。编辑：当我读取文本文件时，字符串将包含“\ u00C3”而不是unicode但是包含ASCII字符’\”u”0”0”3’。我想从该ASCII字符串中形成unicode字符。

“\ n”是一个垂直的空格，即“\ v”应该匹配吗？: 从逻辑上讲，它是（但无论何时角色编码或区域设置正在运行，逻辑都无关紧要）。根据 perl -e ‘print “\n” =~ /\v/ ? “y\n” : “n\n”;’ 打印“y”，它是。根据 Pattern.compile(“\\v”).matcher(“\n”).matches(); 在java中返回false ，它不是。如果没有这个post声称，这根本不会让我感到困惑 Sun为JDK7更新的Pattern类有一个奇妙的新标志UNICODE_CHARACTER_CLASS，它使一切正常工作。但是我使用的是java版本“1.7.0_07”并且该标志存在并且似乎根本没有改变。而且，“\ n”不是Unicode的新手，而是一个普通的旧ASCII字符，所以我真的不知道这种差异是如何发生的。可能我做了一些愚蠢的事，但我看不到它。

将unicode符号用作Java标识符是一个好主意吗？: 我有一段代码如下： double Δt = lastPollTime – pollTime; double α = 1 – Math.exp(-Δt / τ); average += α * (x – average); 在Java标识符中使用unicode字符的想法有多糟糕？或者这完全可以接受？

将国家字符插入oracle NCHAR或NVARCHAR列不起作用: 在oracle数据库中插入字符串时，某些国家字符将替换为问号，即使它们插入NCHAR或NVARCHAR列中 – 应该能够处理所有Unicode字符。使用Oracle的SQL Developer，sqlplus或使用JDBC驱动程序会发生这种情况。数据库NLS_CHARACTERSET设置为WE8ISO8859P1（西欧iso-8859-1）。用于NCHAR列的NLS_NCHAR_CHARACTERSET设置为AL16UTF16。（UTF-16）任何不在NLS_CHARACTERSET中的字符似乎都被替换为反转的问号。

使用java读取unicode文本文件: 真的很简单的问题。我需要在Java程序中读取Unicode文本文件。我习惯使用带有BufferedReader FileReader组合的纯ASCII文本，这显然不起作用:( 我知道我可以使用Buffered Reader以“传统”方式读取字符串，然后使用以下内容进行转换： temp = new String(temp.getBytes(), “UTF-16”); 但有没有办法将Reader包装在’转换器’中？编辑：文件以FF FE开头

使用Java regexp匹配（例如）Unicode字母: StackOverflow上有许多问题和答案，假设“字母”可以在[a-zA-Z]的正则表达式中匹配。然而，对于Unicode，还有更多的字符，大多数人会认为是一个字母（所有的希腊字母，Cyrllic ..还有更多.Unicode定义了许多块，每个块可能有“字母”。 Java定义为像alpha字符这样的东西定义了Posix类，但是它被指定为仅使用US-ASCII。预定义的字符类定义由[a-zA-Z_0-9]组成的单词，它也排除了许多字母。那么如何正确匹配Unicode字符串呢？有没有其他图书馆能够做到这一点？