Tag: utf 8

如何强制javax xslt转换器使用utf-8编码国家字符而不是html实体?

我正在研究filter,它应该使用一些样式表来转换输出。 代码的重要部分如下所示: PrintWriter out = response.getWriter(); … StringReader sr = new StringReader(content); Source xmlSource = new StreamSource(sr, requestSystemId); transformer.setOutputProperty(OutputKeys.ENCODING, “UTF-8”); transformer.setParameter(“encoding”, “UTF-8”); //same result when using ByteArrayOutputStream xo = new java.io.ByteArrayOutputStream(); StringWriter xo = new StringWriter(); StreamResult result = new StreamResult(xo); transformer.transform(xmlSource, result); out.write(xo.toString()); 问题是国家字符被编码为html实体而不是使用UTF。 有没有办法强制变压器使用UTF-8而不是实体?

来自外部jar问题的Spring UTF-8消息资源

我在Spring MVC应用程序中遇到UTF-8消息源的问题。 我已经尝试了AbstractMessageSource的两个实现:ResourceBundleMessageSource和ReloadableResourceBundleMessageSource。 我有一个带有i18n消息的外部jar,包含在com.mypackage.i18n包中 ResourceBundleMessageSource的配置: 此配置加载查找和加载属性,但因UTF-8而失败,因为此实现不支持UTF-8。 ReloadableResourceBundleMessageSource的配置: 此配置找不到属性。 我知道这个具有可重新加载资源的实现需要将属性放在WEB-INF目录中的某个位置,并且如果您不需要重新加载资源,它不会将资源限制在其他位置。 根据类java: 请注意,设置为“basenames”属性的基本名称的处理方式与ResourceBundleMessageSource的“basenames”属性略有不同。 它遵循不指定文件扩展名或语言代码的基本ResourceBundle规则,但可以引用任何Spring资源位置(而不是仅限于类路径资源)。 使用“classpath:”前缀,仍然可以从类路径加载资源,但在这种情况下,除“-1”(永久缓存)之外的“cacheSeconds”值将不起作用。 有人可以建议我如何解决问题:我需要使用另一种方法或以某种方式修改ReloadableResourceBundleMessageSource的配置来从jar中查找资源?

文件被加载错误的编码:android studio中的’UTF-8′

我的android工作室像这样疯了请帮忙? 文件被加载错误的编码:android studio中的’UTF-8′

FileUpload文件名编码

我已经有一段时间了,因为我正在敲打这个:多部分/混合内容。 @RequestPart(name=”view”) CoolView, @RequestPart(name=”files”) Part [] files 也使用spring(因为CommonsMultipartResolver失败也没关系): StandardServletMultipartResolver 现在的问题是,当上传具有US_ASCII字符之外的某些名称的文件时,服务器会将它们转换为奇怪的东西。 奇怪的是,我的意思是它将它们转换为ISO_8859_1,我想我已经设想了UTF-8编码可以想象到的地方。 -Dfile.encoding = UTF-8 LANG =“en_US.UTF-8”LC_ALL =“en_US.UTF-8” URIEncoding = UTF-8(在server.xml中的tomcat) CharacterEncodingFilter是第一个被拾取的filter 有趣的是,这只发生在我在azure linux机器上尝试这个时,本地一切都很好。 例如,我使用curl发送一些要上传的文件: curl -X POST -F “files=@Définition fonctionnalités.pdf” 在Controller中,我试图查看实际从Content-Disposition文件名中捕获的名称。 Définition fonctionnalités.pdf 在这一点上,我会接受任何建议。 感谢你

Java:为什么“\ uFFFF”在UTF-8中转换为?

为什么”\uFFFF” (显然是2个字节长)在UTF-8中转换为[-17,-65,-65]而不是[-1,-1]? System.out.println(Arrays.toString(“\uFFFF”.getBytes(StandardCharsets.UTF_8))); 这是因为对于大于127的码点,UTF-8在每个字节中仅使用6位吗?

在HTTPServlet请求中编码UTF-8

这可能看起来像一个已经解决的问题,但事实并非如此,因为我已经完成了所有与UTF-8相关的问题,但没有一个解决方案对我有所帮助。 我正在使用JSON简单库向包含JSON对象的java servlet发送http请求。 我在Tomcat xml文件中添加了UTF-8编码 我的HTML页面支持UTF-8编码 我的数据库和我的所有表都是UTF-8编码的 我使用系统变量将JVM的默认编码更改为UTF-8(是的!这是我多么绝望) 这是我的调度员function: protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { request.setCharacterEncoding(“UTF-8”); AjaxParser cr = AjaxParser.ClientRequestFactory(); ClientRequest msg = cr.ParseClientAjax(request); HandleRequest HR = new HandleRequest(); HandleRequestStatus HRS = HR.HandleMessage(msg); AjaxResponseGenerator ARG = new AjaxResponseGenerator(); JSONObject jsonObj = ARG.HandleResponse(HRS); response.setCharacterEncoding(“UTF-8”); response.setContentType(“application/json”); PrintWriter out = response.getWriter(); System.out.println(jsonObj);// write the […]

无法通过JAVA API将带有ISO编码的xml写入Marklogic

我们尝试通过JAVA API将带有ISO编码的xml插入MarkLogic但是会收到此错误。 xml包含特殊字符,例如:注册商标符号 – ® Bad Request. Server Message: XDMP-DOCUTF8SEQ: Invalid UTF-8 escape sequence at line 14145 — document is not UTF-8 encoded. 码: DatabaseClient client = DatabaseClientFactory.newClient(IP, PORT, DATABASE_NAME, USERNAME, PWD, Authentication.DIGEST); // acquire the content InputStream xmlDocStream = XMLController.class.getClassLoader() .getResourceAsStream(“path to xml file”); // create a manager for XML documents XMLDocumentManager xmlDocMgr = […]

Java:检测给定字符编码的不可显示字符

我目前正在开发一个应用程序来validation和解析CSV文件。 CSV文件必须以UTF-8编码,尽管有时我们会以错误编码方式获取文件。 CSV文件很可能包含德语字母(Ä,Ö,Ü,ß)的特殊字符,因为CSV文件中的大多数文本都是德语。 对于validation器的一部分,我需要确保该文件是UTF-8编码的。 只要不存在特殊字符,解析时很可能没有问题。 到目前为止我所尝试的是将文件作为字节读取并使用一些库来检测(或猜测)编码。 我尝试了这篇博文的大部分可能性: http : //fredeaker.blogspot.com/2007/01/character-encoding-detection.html 但我尝试的所有库都没有返回正确的编码,因此我无法解析特殊字符。 现在问我的问题:有没有办法确定像UTF-8这样的给定字符编码来检测未正确编码的字符? 所以基本上(Eclipse)控制台中显示的字符作为问号标记。 或者有没有其他方法来正确确定字符编码? 我只需要知道它是否是UTF-8。 提前谢谢大家的帮助! 🙂 最诚挚的问候,罗伯特

从docx中提取符号字符

我正在开发一个JAVA程序,它处理docx文件的XML内容并将其转换为特定格式。 它工作得很好,但如果Word文件包含符号字符,例如希腊字母,我会遇到问题。 在这种情况下,我只看到小方块。 我检查了源代码并看到如下内容: ďˇ 或者,如果我将编码设置为UTF-8:  当我查看为Hexa时,似乎希腊字符编码为EF 81 A1 for alpha, EF 81 A2 for beta等等。 我也尝试了val.getBytes(Charset.forName(“utf8”)) ,其中val是标签的值。 结果是例如[-17, -127, -95] 。 负面价值对我来说非常令人惊讶。 所以我的问题是,将这些符号转换为常规UTF-8字符的安全可靠方法是什么?

Java文本输出中的UTF-8编码问题

我一直在为高棉版Unicode破解者测试各种解决方案(高棉语之间没有空格,这使得拼写检查和语法检查变得困难,以及从传统的高棉语转换为高棉语Unicode)。 我得到了一些现在在线的源代码( http://www.whitemagicsoftware.com/software/java/wordsplit/ )似乎很有希望。 作者非常友好地提供了消息来源,但他正忙着写一本书并且无法排除故障。 我正在以非常小的规模测试代码,我遇到了输出问题。 这是输入: ជាដែលនឹងបានមាន 这是结果输出: ជារ លនឹងមានមាន,ជារ លនឹងបានមាន 这些单词实际上是正确分割的,但有一个单词是混乱的。 输出应如下所示: ជាដែលនឹងបានមាន,ជាដែលនឹងបានមាន 有没有人知道为什么输出会出现乱码? 这是一个非常小的高棉语词典和分词的代码: http : //www.sbbic.org/khmerwordsplit.zip 以下是如何运行它: java -jar wordsplit.jar khmerlexicon.csv khmercolumns.txt >> results.txt 到目前为止,我非常感谢stackoverflow社区为您提供的所有帮助 – 我希望很快找到解决方案!