Tag: unicode

Java正则表达式匹配基本多语言平面之外的字符: 如何在java中的unicode Basic Multilingual Plane外部匹配字符（意图删除它们）？

Java中的Unicode纠正标题案例: 我一直在浏览所有StackOverflow中有关Java资本化问题的大量问题，而且他们似乎都不关心国际化，事实上似乎没有一个在国际背景下工作。所以这是我的问题。我在Java中有一个字符串，它代表一个单词 – 所有isLetter（）字符，没有空格。我想让第一个字符大写，其余小写。我确实有我的单词的语言环境。为字符串的最后一部分调用.substring（1）.toLowerCase（Locale）很容易。但我不知道如何获得正确的第一个角色。我遇到的第一个问题是荷兰语，其中“ij”作为有向图应该一起大写。我可以手工处理这个问题，因为我了解它; 现在可能还有其他语言有这种我不知道的东西，我相信如果我问得好的话，Unicode会告诉我。但我不知道该怎么问。即使上面的问题得到解决，我仍然没有办法处理英语，土耳其语和希腊语，因为Character支持titlecase但没有语言环境，而String支持语言环境但不支持标题。如果我接受代码点，并将其传递给Character.toTitleCase（），则会失败，因为无法将语言环境传递给此方法。因此，如果系统语言环境是英语，但单词是土耳其语，并且单词的第一个字符是“i”，我将得到“I”而不是“İ”，这是错误的。现在，如果我使用子字符串并使用.toUpperCase（Locale），这将失败，因为它是高位而不是标题大小写。因此，如果这个词是希腊语，我仍然会得到错误的字符。如果有人有有用的指示，我会很高兴听到他们。

打印字符串文字unicode作为实际字符: 在我的Java应用程序中，我传递了一个如下所示的字符串： “\ u00a5123” 将该字符串打印到控制台时，我得到与输出相同的字符串（如预期的那样）。但是，我想通过将unicode转换为实际的日元符号（\ u00a5 – >日元符号）来打印出来 – 我将如何进行此操作？即所以它看起来像这样：“[日元符号] 123”

在java中将UTF-16 unicode字符转换为UTF-8: 当我得到JSON然后有\ u003c和\ u003e而不是。我想在java中将它们转换回utf-8。任何帮助将受到高度赞赏。谢谢。

将具有已知编码的文件转换为UTF-8: 我需要将文本文件转换为String，最后，我应该将其作为输入参数（类型InputStream）放到IFile.create（Eclipse）中。寻找示例或如何做但仍然无法弄清楚……需要你的帮助！只是为了测试，我尝试将原始文本文件转换为使用此代码编码的UTF-8 FileInputStream fis = new FileInputStream(FilePath); InputStreamReader isr = new InputStreamReader(fis); Reader in = new BufferedReader(isr); StringBuffer buffer = new StringBuffer(); int ch; while ((ch = in.read()) > -1) { buffer.append((char)ch); } in.close(); FileOutputStream fos = new FileOutputStream(FilePath+”.test.txt”); Writer out = new OutputStreamWriter(fos, “UTF8”); out.write(buffer.toString()); out.close(); 但即使最后的* .test.txt文件有UTF-8编码，里面的字符也会被破坏。

如何判断字符是否是Java中的字母？: 如何检查一个字符的字符串是否是一个字母 – 包括任何带重音的字母？最近我不得不解决这个问题，所以在最近的VB6问题提醒我之后，我会自己回答。

有没有理由比UTF-8更喜欢UTF-16？: 检查UTF-16和UTF-8的属性，我找不到任何理由更喜欢UTF-16。但是，检查Java和C＃，它看起来像字符串和字符默认为UTF-16。我认为这可能是出于历史原因，或者出于性能原因，但无法找到任何信息。有谁知道为什么这些语言选择UTF-16？还有什么理由让我这样做吗？编辑：同时我也找到了这个答案，这似乎是相关的，并有一些有趣的链接。

如何正确计算Java中String的长度？: 我知道String#length和Character的各种方法或多或少都适用于代码单元/代码点。在Java中实际返回Unicode标准（ UAX＃29 ）指定的结果的建议方式是什么，将语言/语言环境，规范化和字形集群考虑在内？

一旦UTF-8编码，我如何截断一个java字符串以适应给定的字节数？: 如何截断java String以便我知道一旦UTF-8编码它将适合给定数量的字节存储？

如何在Java中编写unicode cross符号？: 我正在尝试用Java编写这个unicode十字符号（ 𐀵 ）： class A { public static void main(String[] args) { System.out.println(“\u2300”); System.out.println(“\u10035”); } } 我可以通过它写一条线（ ⌀ ）就好了，但十字符号没有出现，而只是打印数字5： # javac A.java && java A ⌀ ဃ5 为什么？