Tag: unicode

如何在Java中编写3字节的unicode文字?

我想用Java编写unicode文字U + 10428。 http://www.marathon-studios.com/unicode/U10428/Deseret_Small_Letter_Long_I 我试过’\ u10428’并且它没有编译。

如何从PDF中提取文本?

我需要从罗马尼亚语的PDF中提取文本。 使用pdfBox或Snowtide无法正确提取符号:ŢţŞşĂăÎîÂ。 这是一个不起作用的示例文件: ftp : //ftp.logos.md/Biblioteca/_Colectie_RO/2nefon.pdf 有什么建议么?

汉字在Mac终端显示为问号

我试图使用Java文件从数据库中检索一些UTF-8单编码中文字符。 当我这样做时,字符将作为问号返回。 但是,当我显示数据库中的字符时(使用select * from … ),字符会正常显示。 当我在包含中文字符的Java文件中打印字符串时,它们也会正常打印。 我在Eclipse中遇到了这个问题:当我运行程序时,字符被打印为问号。 但是,当我以UTF-8格式保存Java文件时,此问题得以解决。 在终端中运行“locale”当前返回: LANG=”en_GB.UTF-8″ LC_COLLATE=”en_GB.UTF-8″ LC_CTYPE=”en_GB.UTF-8″ LC_MESSAGES=”en_GB.UTF-8″ LC_MONETARY=”en_GB.UTF-8″ LC_NUMERIC=”en_GB.UTF-8″ LC_TIME=”en_GB.UTF-8″ LC_ALL= 我也尝试使用这个编译我的java文件: javac -encoding UTF-8 [java file] 但是,输出仍然是问号。 奇怪的是它有时只会显示角色。 有没有人对此有解释? 或者甚至更好,如何解决这个问题,以便正确显示字符?

在Windows控制台中从Java代码问题中打印出unicode

我在Windows控制台中打印出unicode符号时遇到问题。 这是打印出unicode符号值的java代码; System.out.print(“\u22A2 “); 当我在Eclipse中使用UTF-8编码设置运行程序时,问题不存在,但是当涉及到Windows控制台时,符号会被问号替换。 以下是为了尝试克服这个问题,没有成功; 将Windows控制台的字体更改为Lucida Console。 每次运行Windows控制台时,我都会更改编码设置,即使用chcp 65001 我尝试了几次的额外步骤是使用参数运行java文件,即java -Dfile.encoding=UTF-8 Filter (其中“Filter”是类的名称)

Java:如何从字符串“\ u00C3”等创建unicode

我有一个文件,其字符串手写为\ u00C3。 我想创建一个由java中的unicode表示的unicode字符。 我试过但找不到怎么样。 帮帮我。 编辑:当我读取文本文件时,字符串将包含“\ u00C3”而不是unicode但是包含ASCII字符’\”u”0”0”3’。 我想从该ASCII字符串中形成unicode字符。

“\ n”是一个垂直的空格,即“\ v”应该匹配吗?

从逻辑上讲,它是(但无论何时角色编码或区域设置正在运行,逻辑都无关紧要)。 根据 perl -e ‘print “\n” =~ /\v/ ? “y\n” : “n\n”;’ 打印“y”,它是。 根据 Pattern.compile(“\\v”).matcher(“\n”).matches(); 在java中返回false ,它不是。 如果没有这个post声称,这根本不会让我感到困惑 Sun为JDK7更新的Pattern类有一个奇妙的新标志UNICODE_CHARACTER_CLASS,它使一切正常工作。 但是我使用的是java版本“1.7.0_07”并且该标志存在并且似乎根本没有改变。 而且,“\ n”不是Unicode的新手,而是一个普通的旧ASCII字符,所以我真的不知道这种差异是如何发生的。 可能我做了一些愚蠢的事,但我看不到它。

将unicode符号用作Java标识符是一个好主意吗?

我有一段代码如下: double Δt = lastPollTime – pollTime; double α = 1 – Math.exp(-Δt / τ); average += α * (x – average); 在Java标识符中使用unicode字符的想法有多糟糕? 或者这完全可以接受?

将国家字符插入oracle NCHAR或NVARCHAR列不起作用

在oracle数据库中插入字符串时,某些国家字符将替换为问号,即使它们插入NCHAR或NVARCHAR列中 – 应该能够处理所有Unicode字符。 使用Oracle的SQL Developer,sqlplus或使用JDBC驱动程序会发生这种情况。 数据库NLS_CHARACTERSET设置为WE8ISO8859P1(西欧iso-8859-1)。用于NCHAR列的NLS_NCHAR_CHARACTERSET设置为AL16UTF16。 (UTF-16) 任何不在NLS_CHARACTERSET中的字符似乎都被替换为反转的问号。

使用java读取unicode文本文件

真的很简单的问题。 我需要在Java程序中读取Unicode文本文件。 我习惯使用带有BufferedReader FileReader组合的纯ASCII文本,这显然不起作用:( 我知道我可以使用Buffered Reader以“传统”方式读取字符串,然后使用以下内容进行转换: temp = new String(temp.getBytes(), “UTF-16”); 但有没有办法将Reader包装在’转换器’中? 编辑:文件以FF FE开头

使用Java regexp匹配(例如)Unicode字母

StackOverflow上有许多问题和答案,假设“字母”可以在[a-zA-Z]的正则表达式中匹配。 然而,对于Unicode,还有更多的字符,大多数人会认为是一个字母(所有的希腊字母,Cyrllic ..还有更多.Unicode定义了许多块,每个块可能有“字母”。 Java定义为像alpha字符这样的东西定义了Posix类 ,但是它被指定为仅使用US-ASCII。 预定义的字符类定义由[a-zA-Z_0-9]组成的单词,它也排除了许多字母。 那么如何正确匹配Unicode字符串呢? 有没有其他图书馆能够做到这一点?