Tag: unicode

Java正则表达式匹配基本多语言平面之外的字符

如何在java中的unicode Basic Multilingual Plane外部匹配字符(意图删除它们)?

Java中的Unicode纠正标题案例

我一直在浏览所有StackOverflow中有关Java资本化问题的大量问题,而且他们似乎都不关心国际化,事实上似乎没有一个在国际背景下工作。 所以这是我的问题。 我在Java中有一个字符串,它代表一个单词 – 所有isLetter()字符,没有空格。 我想让第一个字符大写,其余小写。 我确实有我的单词的语言环境。 为字符串的最后一部分调用.substring(1).toLowerCase(Locale)很容易。 但我不知道如何获得正确的第一个角色。 我遇到的第一个问题是荷兰语,其中“ij”作为有向图应该一起大写。 我可以手工处理这个问题,因为我了解它; 现在可能还有其他语言有这种我不知道的东西,我相信如果我问得好的话,Unicode会告诉我。 但我不知道该怎么问。 即使上面的问题得到解决,我仍然没有办法处理英语,土耳其语和希腊语,因为Character支持titlecase但没有语言环境,而String支持语言环境但不支持标题。 如果我接受代码点,并将其传递给Character.toTitleCase(),则会失败,因为无法将语言环境传递给此方法。 因此,如果系统语言环境是英语,但单词是土耳其语,并且单词的第一个字符是“i”,我将得到“I”而不是“İ”,这是错误的。 现在,如果我使用子字符串并使用.toUpperCase(Locale),这将失败,因为它是高位而不是标题大小写。 因此,如果这个词是希腊语,我仍然会得到错误的字符。 如果有人有有用的指示,我会很高兴听到他们。

打印字符串文字unicode作为实际字符

在我的Java应用程序中,我传递了一个如下所示的字符串: “\ u00a5123” 将该字符串打印到控制台时,我得到与输出相同的字符串(如预期的那样)。 但是,我想通过将unicode转换为实际的日元符号(\ u00a5 – >日元符号)来打印出来 – 我将如何进行此操作? 即所以它看起来像这样:“[日元符号] 123”

在java中将UTF-16 unicode字符转换为UTF-8

当我得到JSON然后有\ u003c和\ u003e而不是。 我想在java中将它们转换回utf-8。 任何帮助将受到高度赞赏。 谢谢。

将具有已知编码的文件转换为UTF-8

我需要将文本文件转换为String,最后,我应该将其作为输入参数(类型InputStream)放到IFile.create(Eclipse)中。 寻找示例或如何做但仍然无法弄清楚……需要你的帮助! 只是为了测试,我尝试将原始文本文件转换为使用此代码编码的UTF-8 FileInputStream fis = new FileInputStream(FilePath); InputStreamReader isr = new InputStreamReader(fis); Reader in = new BufferedReader(isr); StringBuffer buffer = new StringBuffer(); int ch; while ((ch = in.read()) > -1) { buffer.append((char)ch); } in.close(); FileOutputStream fos = new FileOutputStream(FilePath+”.test.txt”); Writer out = new OutputStreamWriter(fos, “UTF8”); out.write(buffer.toString()); out.close(); 但即使最后的* .test.txt文件有UTF-8编码,里面的字符也会被破坏。

如何判断字符是否是Java中的字母?

如何检查一个字符的字符串是否是一个字母 – 包括任何带重音的字母? 最近我不得不解决这个问题,所以在最近的VB6问题提醒我之后,我会自己回答。

有没有理由比UTF-8更喜欢UTF-16?

检查UTF-16和UTF-8的属性,我找不到任何理由更喜欢UTF-16。 但是,检查Java和C#,它看起来像字符串和字符默认为UTF-16。 我认为这可能是出于历史原因,或者出于性能原因,但无法找到任何信息。 有谁知道为什么这些语言选择UTF-16? 还有什么理由让我这样做吗? 编辑:同时我也找到了这个答案 ,这似乎是相关的,并有一些有趣的链接。

如何正确计算Java中String的长度?

我知道String#length和Character的各种方法或多或少都适用于代码单元/代码点。 在Java中实际返回Unicode标准( UAX#29 )指定的结果的建议方式是什么,将语言/语言环境,规范化和字形集群考虑在内?

一旦UTF-8编码,我如何截断一个java字符串以适应给定的字节数?

如何截断java String以便我知道一旦UTF-8编码它将适合给定数量的字节存储?

如何在Java中编写unicode cross符号?

我正在尝试用Java编写这个unicode十字符号( 𐀵 ): class A { public static void main(String[] args) { System.out.println(“\u2300”); System.out.println(“\u10035”); } } 我可以通过它写一条线( ⌀ )就好了,但十字符号没有出现,而只是打印数字5: # javac A.java && java A ⌀ ဃ5 为什么?