Tag: unicode

Java是否有获取各种字节顺序标记的方法?

我在Java中寻找一个实用程序方法或常量,它将返回与编码的相应字节顺序标记相对应的字节,但我似乎无法找到一个。 有吗? 我真的想做点什么: byte[] bom = Charset.forName( CharEncoding.UTF8 ).getByteOrderMark(); CharEncoding来自Apache Commons。

如何获取包含Java中前N个unicode字符的子字符串

Java中的String数据类型让我们知道codePointCount在字符串中退出了多少个unicode字符; 以及如何通过codePointAt获取第n个unicode char。 我想知道是否有一个API来获取包含Java中前N个unicode字符的子字符串。 谢谢,

javadoc中的Unicode和注释?

某些编译器在JavaDoc和源代码注释中的非ASCII字符上失败。 Java源文件中关于Unicode的当前(Java 7)和未来(Java 8及更高版本)实践是什么? IcedTea,OpenJDK和其他Java环境之间是否存在差异,以及语言规范的含义是什么? 是否应该使用HTML 和转义在JavaDoc中转义所有非ASCII字符; 像代码? 但Java //评论等同于什么? 更新 :注释表明可以使用任何字符集,并且在编译时需要指示源文件中使用的字符集。 我将研究这个,并将寻找有关如何通过Ant,Eclipse和Maven配置它的详细信息。

分离Unicode连字符

在大量的unicode字符中,有一些实际上代表了多个字符,比如两个’f’字符的U + FB00连字字符ff。 有没有什么方法可以轻松将这些字符转换为多个单个字符? 最好是标准Java API中可用的东西,但如果需要,我可以引用外部库。

Java:使用unicode上线显示平方根时的字符串长度?

在Java中我创建了一个使用unicode和overline的字符串,因为我试图显示数字的平方根。 我需要知道一些格式问题的字符串长度。 在unicode中使用组合字符时,查找字符串长度的常用方法似乎失败,如下例所示。 任何人都可以帮助我找到随机数在平方根中的第二个字符串的长度,或者如何更好地进行平方根显示的提示? String s = “\u221A”+”12”; String t = “\u221A”+”1″+”\u0305″+”2″+”\u0305”; System.out.println(s); System.out.println(t); System.out.println(s.length()); System.out.println(t.length()); 感谢您的帮助,我在谷歌上找不到任何相关内容。

ASCII不可读字符28,29 31

好的,我在这里很厚 我正在处理一个我需要根据分隔符进行拆分的文件。 以下代码显示为我正在处理的文件定义的分隔符 private static final String component = Character.toString((char) 31); private static final String data = Character.toString((char) 29); private static final String segment = Character.toString((char) 28); 有人可以解释一下这些特定分隔符的意义吗? 查看ascii代码,这些分隔符是文件,组和单元分隔符。 我真的不明白这意味着什么。 谢谢

Java:如何检查字符是否属于特定的unicode块?

我需要确定我的输入所属的自然语言。 目标是在混合输入中区分阿拉伯语和英语单词,其中输入是Unicode并从XML文本节点中提取。 我注意到了类Character.UnicodeBlock 。 这与我的问题有关吗? 我怎样才能让它发挥作用? 编辑: Character.UnicodeBlock方法对阿拉伯语很有用,但显然不适用于英语(或其他欧洲语言),因为BASIC_LATIN Unicode块包含符号和不可打印的字符以及字母。 所以现在我使用String对象的matches()方法和正则表达式”[A-Za-z]+” 。 我可以忍受它,但也许有人可以建议更好/更快的方式。

如何解析从java中的文件读取的unicode

我写了一个包含以下内容的文本文件: \u0032\u0142o\u017Cy\u0142 然后我使用FileReader和BufferedReader来读取文件。 public static void main(String[] args) throws Exception{ FileInputStream fr = new FileInputStream(“README.TXT”); BufferedReader br = new BufferedReader(new InputStreamReader(fr,”UTF-8″)); String s=””; while((s=br.readLine())!=null){ System.out.println(s); } } 但输出是: \u0032\u0142o\u017Cy\u0142 。 我用的时候 System.out.println(“\u0032\u0142o\u017Cy\u0142”); 这些代码将被解析并以正确的forms显示。 如何更改我的代码,以便解析文件中的unicode并以正确的forms显示?

正则表达式与拉丁字符

我有这个正则表达式: if (cadena.matches(“^[a-zA-Z ]+$”)) return true; 它接受从A到Z的小写和大写。 也接受空格。 但这只适用于英语。 例如,在加泰罗尼亚语中我们有’ç’字符。 我们还有’á’或’à’等字符。 有些谷歌和我找不到任何方法来做到这一点。 我发现我可以过滤UTF-8,但这会接受不是字母的字符。 我该如何实现呢?

Java中的Unicode到字符串转换

我正在建立一种语言,一种玩具语言。 语法\#0061应该将给定的Unicode转换为字符: String temp = yytext().subtring(2); 然后在尝试将’\u’附加到字符串后,我注意到生成了错误。 我也尝试过”\\” + “u” + temp; 这种方式不做任何转换。 我基本上试图通过仅向方法提供’0061’来将Unicode转换为字符,帮助。