Tag: unicode

Java是否有获取各种字节顺序标记的方法？: 我在Java中寻找一个实用程序方法或常量，它将返回与编码的相应字节顺序标记相对应的字节，但我似乎无法找到一个。有吗？我真的想做点什么： byte[] bom = Charset.forName( CharEncoding.UTF8 ).getByteOrderMark(); CharEncoding来自Apache Commons。

如何获取包含Java中前N个unicode字符的子字符串: Java中的String数据类型让我们知道codePointCount在字符串中退出了多少个unicode字符; 以及如何通过codePointAt获取第n个unicode char。我想知道是否有一个API来获取包含Java中前N个unicode字符的子字符串。谢谢，

javadoc中的Unicode和注释？: 某些编译器在JavaDoc和源代码注释中的非ASCII字符上失败。 Java源文件中关于Unicode的当前（Java 7）和未来（Java 8及更高版本）实践是什么？ IcedTea，OpenJDK和其他Java环境之间是否存在差异，以及语言规范的含义是什么？是否应该使用HTML 和转义在JavaDoc中转义所有非ASCII字符; 像代码？但Java //评论等同于什么？更新：注释表明可以使用任何字符集，并且在编译时需要指示源文件中使用的字符集。我将研究这个，并将寻找有关如何通过Ant，Eclipse和Maven配置它的详细信息。

分离Unicode连字符: 在大量的unicode字符中，有一些实际上代表了多个字符，比如两个’f’字符的U + FB00连字字符ff。有没有什么方法可以轻松将这些字符转换为多个单个字符？最好是标准Java API中可用的东西，但如果需要，我可以引用外部库。

Java：使用unicode上线显示平方根时的字符串长度？: 在Java中我创建了一个使用unicode和overline的字符串，因为我试图显示数字的平方根。我需要知道一些格式问题的字符串长度。在unicode中使用组合字符时，查找字符串长度的常用方法似乎失败，如下例所示。任何人都可以帮助我找到随机数在平方根中的第二个字符串的长度，或者如何更好地进行平方根显示的提示？ String s = “\u221A”+”12”; String t = “\u221A”+”1″+”\u0305″+”2″+”\u0305”; System.out.println(s); System.out.println(t); System.out.println(s.length()); System.out.println(t.length()); 感谢您的帮助，我在谷歌上找不到任何相关内容。

ASCII不可读字符28,29 31: 好的，我在这里很厚我正在处理一个我需要根据分隔符进行拆分的文件。以下代码显示为我正在处理的文件定义的分隔符 private static final String component = Character.toString((char) 31); private static final String data = Character.toString((char) 29); private static final String segment = Character.toString((char) 28); 有人可以解释一下这些特定分隔符的意义吗？查看ascii代码，这些分隔符是文件，组和单元分隔符。我真的不明白这意味着什么。谢谢

Java：如何检查字符是否属于特定的unicode块？: 我需要确定我的输入所属的自然语言。目标是在混合输入中区分阿拉伯语和英语单词，其中输入是Unicode并从XML文本节点中提取。我注意到了类Character.UnicodeBlock 。这与我的问题有关吗？我怎样才能让它发挥作用？编辑： Character.UnicodeBlock方法对阿拉伯语很有用，但显然不适用于英语（或其他欧洲语言），因为BASIC_LATIN Unicode块包含符号和不可打印的字符以及字母。所以现在我使用String对象的matches()方法和正则表达式”[A-Za-z]+” 。我可以忍受它，但也许有人可以建议更好/更快的方式。

如何解析从java中的文件读取的unicode: 我写了一个包含以下内容的文本文件： \u0032\u0142o\u017Cy\u0142 然后我使用FileReader和BufferedReader来读取文件。 public static void main(String[] args) throws Exception{ FileInputStream fr = new FileInputStream(“README.TXT”); BufferedReader br = new BufferedReader(new InputStreamReader(fr,”UTF-8″)); String s=””; while((s=br.readLine())!=null){ System.out.println(s); } } 但输出是： \u0032\u0142o\u017Cy\u0142 。我用的时候 System.out.println(“\u0032\u0142o\u017Cy\u0142”); 这些代码将被解析并以正确的forms显示。如何更改我的代码，以便解析文件中的unicode并以正确的forms显示？

正则表达式与拉丁字符: 我有这个正则表达式： if (cadena.matches(“^[a-zA-Z ]+$”)) return true; 它接受从A到Z的小写和大写。也接受空格。但这只适用于英语。例如，在加泰罗尼亚语中我们有’ç’字符。我们还有’á’或’à’等字符。有些谷歌和我找不到任何方法来做到这一点。我发现我可以过滤UTF-8，但这会接受不是字母的字符。我该如何实现呢？

Java中的Unicode到字符串转换: 我正在建立一种语言，一种玩具语言。语法\#0061应该将给定的Unicode转换为字符： String temp = yytext().subtring(2); 然后在尝试将’\u’附加到字符串后，我注意到生成了错误。我也尝试过”\\” + “u” + temp; 这种方式不做任何转换。我基本上试图通过仅向方法提供’0061’来将Unicode转换为字符，帮助。