如何在java中添加UTF-8 BOM
我有一个Java存储过程,它使用Resultset对象从表中获取记录并创建一个csv文件。
BLOB retBLOB = BLOB.createTemporary(conn, true, BLOB.DURATION_SESSION); retBLOB.open(BLOB.MODE_READWRITE); OutputStream bOut = retBLOB.setBinaryStream(0L); ZipOutputStream zipOut = new ZipOutputStream(bOut); PrintStream out = new PrintStream(zipOut,false,"UTF-8"); out.write('\ufeff'); out.flush(); zipOut.putNextEntry(new ZipEntry("filename.csv")); while (rs.next()){ out.print("\"" + rs.getString(i) + "\""); out.print(","); } out.flush(); zipOut.closeEntry(); zipOut.close(); retBLOB.close(); return retBLOB;
但生成的csv文件未显示正确的德语字符。 Oracle数据库的NLS_CHARACTERSET值也为UTF8。
请建议。
要以UTF-8编写BOM,您需要PrintStream.print()
,而不是PrintStream.write()
。
此外,如果您想在csv
文件中包含BOM,我猜您需要在putNextEntry()
之后打印BOM。
BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(...), StandardCharsets.UTF_8)); out.write('\ufeff'); out.write(...);
这正确地将0xEF 0xBB 0xBF写入文件,这是BOM的UTF-8表示。
我认为out.write('\ufeff');
应该是out.print('\ufeff');
。
根据javadoc , write(int)
方法实际上写了一个字节……没有任何字符编码。 所以out.write('\ufeff');
写字节0xff
。 相反, print(char)
方法使用流的编码将字符编码为一个或多个字节,然后写入这些字节。
为了防止人们使用PrintStream
,你需要做一些不同的事情。 虽然Writer
会将单个字节转换为3个字节,但PrintStream
需要单独使用UTF-8 BOM的所有3个字节:
// Print utf-8 BOM PrintStream out = System.out; out.write('\ufeef'); // emits 0xef out.write('\ufebb'); // emits 0xbb out.write('\ufebf'); // emits 0xbf
或者,您可以直接使用hex值:
PrintStream out = System.out; out.write(0xef); // emits 0xef out.write(0xbb); // emits 0xbb out.write(0xbf); // emits 0xbf
在我的情况下,它适用于代码:
PrintWriter out = new PrintWriter(new File(filePath), "UTF-8"); out.write(csvContent); out.flush(); out.close();