Tag: 字符编码

如何正确计算Java中String的长度?

我知道String#length和Character的各种方法或多或少都适用于代码单元/代码点。 在Java中实际返回Unicode标准( UAX#29 )指定的结果的建议方式是什么,将语言/语言环境,规范化和字形集群考虑在内?

jsp没有以适当的格式传递UTF-8数据

我希望JSP页面支持UTF8数据我能够使用struts2和jsp进行本地化但是当我用本地语言从jsp上的用户获取数据时,信息不能以正确的格式运行,而是传递一些grabled数据。 这是我的jsp代码:—— : : : : :  (mmm/dd/yyyy): : : : : : :

查询字符串中的字符编码,希伯来语

我正在尝试使用希伯来语中的查询字符串参数发送GET请求。 当控制器获得请求时,参数是乱码。 我添加了“org.springframework.web.filter.CharacterEncodingFilter”,但它没有改变一件事。 请告知如何解决它。 更新:这是请求。 GET /myapp/specialties?query=%D7%92%D7%99%D7%A0%D7%A0%D7%A0%D7%A0 HTTP/1.1 Host: localhost:8080 Connection: keep-alive Accept: * Cache-Control: no-cache User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.117 Safari/537.36 Content-Type: application/json;charsert=utf-8 Accept-Encoding: gzip,deflate,sdch Accept-Language: en-US,en;q=0.8,he;q=0.6 Query String Parametersview sourceview URL encoded query:גיננננ Response Headersview source Content-Type:application/json;charset=UTF-8 Date:Mon, 03 Mar 2014 20:45:17 GMT Server:Apache-Coyote/1.1 Transfer-Encoding:chunked […]

Java – 从String中删除\ u0000

我正在使用Twitter API,我有以下字符串,这让我感到Proyecto de ingeniera comercial, actual Profesora de matemáticas \u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000Enseña Chile 我想将它存储在PostgreSql中,但是不接受\u0000 ,所以我想替换它。 我尝试使用string= string.replaceAll(“\\u0000”, “”); 但它不起作用。 我得到以下内容 String json = TwitterObjectFactory.getRawJSON(user); System.out.println(json); json = json.replaceAll(“\\u0000”, “”); System.out.println(json); 输出(只有重要部分) Proyecto de ingeniera comercial, actual Profesora de matemáticas \u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000Enseña Chile Proyecto de ingeniera comercial, actual Profesora de matemáticas \u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000\u0000Enseña Chile 如果我将该部分放在java中的String中,替换工作,但如果我把它放在一个文本文件中或我直接读取它为Twitter它不起作用 所以我的问题是,如何从字符串中替换\ u0000? 顺便说一句,完整的字符串就是这个 {“utc_offset”:null,”friends_count”:83,”profile_image_url_https”:”http://sofzh.miximages.com/java/3a8455cd94045fa6980402add14796a9_normal.jpg”,”listed_count”:1,”profile_background_image_url”:”http://sofzh.miximages.com/java/bg.png”,”default_profile_image”:false,”favourites_count”:0,”description”:”Proyecto de […]

在java中获取char值

如何在Java中获取char的UTF8代码? 我有char’a’,我想要值97我有char’é’,我想要值233 这是一个更多值的表 我尝试过Character.getNumericValue(a)但是它给了我10而不是97,任何想法为什么? 这似乎非常基本,但任何帮助将不胜感激!

如何解析与java不同编码的字符串

我有一个我从Word文档中读过的字符串。 我认为这是在“Cp1252”编码。 Java使用UTF8。 如何在Cp1252中搜索该字符串中的那些特殊字符并用适当的UTF8字符替换它们? 具体来说,我想用简单的“ – ”替换“En Dash”字符 以下代码块采用来自Word文档的projDateString,并尝试执行此类操作 char[] test = projDateString.getBytes(“Cp1252”); for(int i = 0; i < test.length; i++){ System.out.println "test["+ i + "] = " + Integer.toHexString((byte)test[i]); } String projDateString2 = new String(test); projDateString2.replaceAll("\0x96", "\u2013"); System.out.println("projDateString2: " + projDateString) 我不确定我是否正确设置了projDateString2。 如您所见,当我使用Cp1252编码对字符串进行getBytes时,该破折号的hex值为ffffff96。 如果我使用UTF8获取它,它将以3个hex值而不是一个。 这给了我以下输出: test[0] = 30 test[1] = 38 test[2] = 2f […]

如何在Java中检查字符串的字符集?

在我的应用程序中,我从LDAP获取用户信息,有时完整的用户名出现在错误的字符集中。 例如: ТеÑÑ61 ТеÑÑовиÑ61 它也可以是英文或俄文并正确显示。 如果用户名更改,则会在数据库中更新。 即使我更改db中的值也不会解决问题。 我可以通过这样做来保存它 new String(incorrect.getBytes(“ISO-8859-1”), “UTF-8”); 但是,如果我将它用于包含俄语字符的字符串(例如,“Тест61Тестович61”),我会得到类似这样的内容“???? 61 ???????? 61”。 你能否提出一些可以确定字符串字符串的东西?

字节到字符串,反之亦然

我需要转换随机生成的salt值并将其存储在数据库中。 为了将它存储在数据库中,我将其转换为字符串。 然后,为了检索原始值,我将其转换回字节。 但两个值都不匹配。 我试过“UTF-8”,“UTF-16”,BASE64Encoder。 SecureRandom ranGen = new SecureRandom(); byte[] aesKey = new byte[16]; // 16 bytes = 128 bits ranGen.nextBytes(aesKey); System.out.println(aesKey); String a=new String(aesKey,”UTF-16″); byte[] b=new byte[16]; b=a.getBytes(“UTF-16”); System.out.println(b); 上述代码的输出(执行2次): [B@11563ff [B@1581593 和 [B@170888e [B@11563ff

检查String是否包含编码字符

您好我正在寻找一种方法来检测字符串是否被编码 例如 String name = “Hellä world”; String encoded = new String(name.getBytes(“utf-8”), “iso8859-1”); 这个encoded变量的输出是: Hellä world 如你所见,有一个带有坟墓的A和另一个符号。 有没有办法检查输出是否包含编码字符?

Java文本文件编码

我有一个文本文件,它可以是ANSI(带有ISO-8859-2字符集),UTF-8,UCS-2 Big或Little Endian。 有没有办法检测文件的编码以正确读取它? 或者是否可以在不提供编码的情况下读取文件? (它按原样读取文件) (有几个程序可以检测和转换文本文件的编码/格式。)