Tag: unicode

在java框架中设置unicode字符

如何在没有日语语言包的Windows XP m / c中以Java swing的JFrame标题显示unicode字符(例如japanese)? 看起来像将标题文本设置为日语unicode字符,而字体为MS Mincho是不够的。 虽然这是在Swing标签中显示unicode字符所需要做的全部内容吗?

如何在Java中将UTF-8转换为unicode?

例如,在Emoji Char集中, U+1F601是“GRINNING FACE WITH SMILING EYES”的unicode值, \xF0\x9F\x98\x81是该字符的UTF-8字节值。 \xE2\x9D\xA4用于沉重的黑心,unicode是U+2764 。 所以我的问题是,如果我有一个带有值的字节数组(0xF0, 0x9F, 0x98, 0x81, 0xE2, 0x9D, 0xA4) ,那我怎么能把它转换成Unicode值呢? 对于上面的结果,我想要的是一个值为”1F601″和”2764″的String数组。 我知道我可以编写一个复杂的方法来完成这项工作,但我希望已经有一个库来完成这项工作。

如何将unicode代码点转换为其字符表示forms?

如何将代表代码点的字符串转换为适当的字符? 例如,我想要一个获得U+00E4并返回ä的函数。 我知道在字符类中我有一个函数toChars(int codePoint) ,它接受一个整数但是没有函数接受这种类型的字符串。 是否有内置函数或者我是否必须对字符串进行一些转换以获取可以发送给函数的整数?

如何使用RandomAccessFile读取UTF8编码的文件?

我有用UTF8编码的文本文件(用于特定于语言的字符)。 我需要使用RandomAccessFile来寻找特定的位置并从中读取。 我想逐行阅读。 String str = myreader.readLine(); //returns wrong text, not decoded String str myreader.readUTF(); //An exception occurred: java.io.EOFException

如何删除不适合MySQL中utf8编码的错误字符?

我有脏数据。 有时它包含这样的字符。 我使用这些数据来进行查询 WHERE a.address IN (‘mydatahere’) 对于这个角色,我得到了 org.hibernate.exception.GenericJDBCException:操作’IN’的非法混合排序(utf8_bin,IMPLICIT),(utf8mb4_general_ci,COERCIBLE),(utf8mb4_general_ci,COERCIBLE) 如何过滤掉这样的字符? 我用的是Java。 谢谢。

GUI:如何确定是否支持某些Unicode字符?

我注意到Metal L&F不支持Unicode中的某些箭头字符,而Nimbus和GTK L&F确实支持它们。 不支持的字符只显示为: … 我可以吗 或者查找(手动),L&F支持哪些Unicode字符, 或者在运行时找到它? 编辑:或者,如果它只取决于L&F的默认字体,我的问题或许应该是: “我怎么知道,哪种Java字体支持哪些Unicode字符?”

Java字符串Unicode值

如何在java中获取字符串的unicode值? 例如,如果字符串是“Hi”,我需要像\ uXXXX \ uXXXX这样的东西

用于validation本地化字符串中的字母和数字的正则表达式

我有一个本地化的输入字段。 我需要使用正则表达式添加validation,它必须只使用字母和数字。 如果我只使用英语,我可以使用[a-z0-9] 。 截至目前,我正在使用方法Character.isLetterOrDigit(name.charAt(i)) (是的,我正在迭代每个字符)来过滤掉各种语言中的字母表。 有没有更好的方法呢? 任何正则表达式或其他可用的库?

在java中检测中文字符

使用Java如何检测String是否包含中文字符? String chineseStr = “已下架” ; if (isChineseString(chineseStr)) { System.out.println(“The string contains Chinese characters”); }else{ System.out.println(“The string contains Chinese characters”); } 你能帮我解决一下这个问题吗?

为什么Java char使用UTF-16?

最近我读了很多关于unicode代码点以及它们如何随着时间的推移而演变的事情,并确定我也阅读了http://www.joelonsoftware.com/articles/Unicode.html 。 但是我无法找到Java使用UTF-16作为char的真正原因。 例如,如果我的字符串包含1024个字母的ASCII范围字符串字符串。 它意味着1024 * 2 bytes ,相当于它将消耗的2KB字符串内存。 因此,如果Java base char是UTF-8,那么它只有1KB的数据。 即使字符串有任何需要2字节的字符,例如10字符“字”,它自然会增加内存消耗的大小。 (1014 * 1 byte) + (10 * 2 bytes) = 1KB + 20 bytes 结果不是那个明显的1KB + 20 bytes VS. 2KB 1KB + 20 bytes VS. 2KB我不是说关于ASCII但我对此的好奇心为什么它不是UTF-8,它只是照顾多字节字符。 UTF-16在任何具有大量非多字节字符的字符串中看起来像浪费内存。 这背后有什么好理由吗?