Tag: utf 8

如何确保字符串是UTF-8?

如何将此String the surveyÂ’s rules转换为Scala中的UTF-8 ? 我尝试过这些道路,但不起作用: scala> val text = “the surveyÂ’s rules” text: String = the surveyÂ’s rules scala> scala.io.Source.fromBytes(text.getBytes(), “UTF-8″).mkString res17: String = the surveyÂ’s rules scala> new String(text.getBytes(),”UTF8”) res21: String = the surveyÂ’s rules 好的,我这样解决了。 不是转换,而是简单的阅读 implicit val codec = Codec(“US-ASCII”).onMalformedInput(CodingErrorAction.IGNORE).onUnmappableCharacter(CodingErrorAction.IGNORE) val src = Source.fromFile(new File (folderDestination + name + “.csv”)) val […]

设置Java环境(Apache Tomcat)以编码UTF-8

我想知道如何设置Java环境以UTF-8编码。 基本上我有JSP页面显示一些阿拉伯文本,但它们似乎没有正确的编码。 当我在IDE中运行页面时,它工作正常,但在它们是主机的服务器上,它很简单地将其显示为问号。 我只是想知道如何设置java环境或apache tomcat来编码UTF-8。 任何帮助将不胜感激。

通过RFC 5987处理带有空格的filename *参数会在文件名中生成“+”

我有一些我正在处理的遗留代码(所以我不能只使用带有编码文件名组件的URL),允许用户从我们的网站下载文件。 由于我们的文件名通常有许多不同的语言,因此它们都存储为UTF-8。 我写了一些代码来处理RFC5987转换为正确的文件名*参数。 这非常有用,直到我有一个非ascii字符和空格的文件名。 根据RFC,空格字符不是attr_char的一部分,因此它被编码为%20。 我有新版本的Chrome和Firefox,他们都在下载时转换为%20到+。 我试过不编码空格并将编码的文件名放在引号中并获得相同的结果。 我已经嗅到了来自服务器的响应,以validationservlet容器没有弄乱我的标题,它们看起来对我来说是正确的。 RFC甚至包含%20的示例。 我错过了什么,或者所有这些浏览器都有与此相关的错误? 提前谢谢了。 我用来编码文件名的代码如下。 彼得 public static boolean bcsrch(final char[] chars, final char c) { final int len = chars.length; int base = 0; int last = len – 1; /* Last element in table */ int p; while (last >= base) { p = base + […]

在java中输出为UTF-8编码

我使用eclipse的程序输出文件有问题.i将我的eclipse设置为UTF-8并使用 System.getProperty(“file.encoding”) 我得到UTF-8.i通过eclipse run-option运行我的prog并且输出(文本文件)以UTF-8编码。但是当我将源代码压缩成jar文件时,输出文件显示某些错误当在eclipse和frm jar文件中重新编写prog时,像.what这样的字母是什么?我必须在源代码中指定要在utf-8中编码的输出吗?请帮忙。 来自@dacwe的帮助确实产生了所需的输出。但是我可以知道如何在命令行外运行我的可执行文件.jar文件吗?-Dfile.encoding = UTF-8怎么样? @dacwe:我尝试将源代码更改为 BufferedWriter bout = new java.io.BufferedWriter(new java.io.OutputStreamWriter( new java.io.FileOutputStream(filename), “UTF-8”)); 但输出仍然没有正确编码。我想念的是什么?

标记化和模式匹配如何在中文中起作用。

这个问题涉及计算以及中国人的知识。 我有中文查询,我有一个单独的中文短语列表,我需要能够找到这些查询中的哪些有任何这些短语。 在英语中,这是一项非常简单的任务。 我根本不懂中文,它的语义,语法规则等。如果这个论坛中有人也懂中文,可以帮助我对中文有一些基本的了解和模式匹配。 我有一个基本的看法,即在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?)。 那么有没有任何规则说明不止一个词如何在它们之间结合起来作为一个单元脱颖而出。 这是令人困惑的,因为在中文写作中有空格,即使没有空格的单元也有多个单词。 从计算的角度来看解释中文的任何链接,模式匹配等都非常有用。

Tomcat / Linux上的UTF-8和Servlet

我在Tomcat 6 / Linux上从servlet读取和编写UTF-8时遇到了一些问题。 请求和响应是utf-8,浏览器是utf-8,URIEncoding是在连接器和主机上的server.xml中设置的。 简而言之,代码本身对我来说每个已知的东西,服务器配置都是utf-8。 在读取请求时,我不得不从String中获取字节数组,然后再将该字节数组转换为String。 写入请求时,我必须写入字节,而不是字符串本身,以便得到正确的响应(否则我会得到一个exception,说明某些非ASCII字符无效ISO 8859-1)。

UTF-8和UTF-16之间是否存在巨大差异?

我调用了一个webservice,它给了我一个具有UTF-8编码的响应xml。 我在java中使用getAllHeaders()方法检查了它。 现在,在我的java代码中,我接受了该响应,然后对其进行了一些处理。 然后,将其传递给不同的服务。 现在,我google了一下,发现默认情况下,Java中的字符串编码是UTF-16。 在我的回复xml中,其中一个元素有一个字符É。 现在这搞砸了我对不同服务的后处理请求。 它没有发送É,而是发送了一些乱七八糟的东西。 现在我想知道,这两种编码真的会有很大不同吗? 如果我想知道什么将从UTF-8转换为UTF-16,那么我该怎么做呢? 谢谢

使用Java替换阿拉伯语推文中的表情符号Unicode范围

我试图用java替换阿拉伯语推文中的表情符号。 我用过这段代码: String line = “اييه تقولي اجل الارسنال تعادل امس بعد ما كان فايز 😂😂”; Pattern unicodeOutliers = Pattern.compile(“([\u1F601-\u1F64F])”, Pattern.UNICODE_CASE | Pattern.CANON_EQ | Pattern.CASE_INSENSITIVE); Matcher unicodeOutlierMatcher = unicodeOutliers.matcher(line); line = unicodeOutlierMatcher.replaceAll(” $1 “); 但它并没有取代它们。 即使我只匹配字符本身“\ u1F602”,它也不会取代它。 可能是因为它是你之后的5位数?! 我不确定,只是一个猜测。 注意: 1-推特结束时的情绪(😂)是“U + 1F602”,即“面对欢乐的泪水” 2-这个问题与这个问题不重复。 有任何想法吗?

如何在Java中替换/删除UTF-8字符串中的4(+)字节字符?

因为MySQL 5.1不支持4字节UTF-8序列,所以我需要替换/删除这些字符串中的4字节序列。 我正在寻找一种干净的方法来替换这些角色。 对于这种情况,Apache库正在用问号替换字符,但是当然,ASCII等价物会更好。 NB输入来自外部源(电子邮件名称),此时升级数据库不是解决方案。

Eclipse错误的Java属性UTF-8编码

我有一个JavaEE项目,我在其中使用消息属性文件。 这些文件的编码设置为UTF-8。 在文件中,我使用ä , ö , ü等德语变音符号。 问题是,有时这些字符被替换为unicode,如\uFFFD\uFFFD ,但不是每个字符。 现在,我有一个案例,其中ä和ü都被替换为\uFFFD\uFFFD ,但不是每次出现的ä和ü 。 Git diff给我看了这样的事情: mail.adresses=E-Mail hinzufügen: -mail.adresses.multiple=E-Mails durch Kommata getrennt hinzufügen. +mail.adresses.multiple=E-Mails durch Kommata getrennt hinzuf\uFFFD\uFFFDgen. mail.title=Einladungs-E-Mail box.preview=Vorschau box.share.text=Sie können jetzt die ausgewählten Bilder mit Ihren Freunden teilen. @@ -6880,7 +6880,7 @@ browser.cancel=Abbrechen browser.selectImage=übernehmen browser.starImage=merken browser.removeImage=Löschen -browser.searchForSimilarImages=ähnliche +browser.searchForSimilarImages=\uFFFD\uFFFDhnliche browser.clear_drop_box=löschen 此外,还有一些线路已经改变,我没有碰过。 我不明白为什么我会这样做。 可能是上述问题的原因是什么? 我的系统: Antergos / […]