Tag: cjk

标记化和模式匹配如何在中文中起作用。

这个问题涉及计算以及中国人的知识。 我有中文查询,我有一个单独的中文短语列表,我需要能够找到这些查询中的哪些有任何这些短语。 在英语中,这是一项非常简单的任务。 我根本不懂中文,它的语义,语法规则等。如果这个论坛中有人也懂中文,可以帮助我对中文有一些基本的了解和模式匹配。 我有一个基本的看法,即在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?)。 那么有没有任何规则说明不止一个词如何在它们之间结合起来作为一个单元脱颖而出。 这是令人困惑的,因为在中文写作中有空格,即使没有空格的单元也有多个单词。 从计算的角度来看解释中文的任何链接,模式匹配等都非常有用。

如何将日文字符分类为汉字或假名?

鉴于下面的文字,我如何将每个角色分类为假名或汉字 ? 谁か确认上记これらのフ 得到这样的东西 誰 – kanji か – kana 確 – kanji 認 – kanji 上 – kanji 記 – kanji こ – kana れ – kana ら – kana の – kana フ – kana (对不起,如果我做错了。)

如何用java保存中文字符到文件?

我使用以下代码将中文字符保存为.txt文件,但是当我用Wordpad打开它时,我无法读取它。 StringBuffer Shanghai_StrBuf = new StringBuffer(“\u4E0A\u6D77”); boolean Append = true; FileOutputStream fos; fos = new FileOutputStream(FileName, Append); for (int i = 0;i < Shanghai_StrBuf.length(); i++) { fos.write(Shanghai_StrBuf.charAt(i)); } fos.close(); 我能做什么 ? 我知道如果我将中文字符剪切并粘贴到Wordpad中,我可以将其保存为.txt文件。 我如何用Java做到这一点?

如何在java中使用中文和日文字符作为字符串?

你好 我使用的是java语言。 在这里我必须使用一些中文,日文字符作为字符串并使用System.out.println()进行打印。 我怎样才能做到这一点? 谢谢