标记化和模式匹配如何在中文中起作用。

这个问题涉及计算以及中国人的知识。 我有中文查询,我有一个单独的中文短语列表,我需要能够找到这些查询中的哪些有任何这些短语。

在英语中,这是一项非常简单的任务。 我根本不懂中文,它的语义,语法规则等。如果这个论坛中有人也懂中文,可以帮助我对中文有一些基本的了解和模式匹配。

我有一个基本的看法,即在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?)。 那么有没有任何规则说明不止一个词如何在它们之间结合起来作为一个单元脱颖而出。 这是令人困惑的,因为在中文写作中有空格,即使没有空格的单元也有多个单词。

从计算的角度来看解释中文的任何链接,模式匹配等都非常有用。

我有一个基本的看法,即在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?)。

在中国空间很少使用,例如:

递归(英语:Recursion) ,又译为递回,在数学与计算机科学中,是指在函数的定义中使用函数自身的方法。递归一词还较常用于描述以自相似方法重复事物的过程。例如,当两面镜子相互之间近似平行时,镜中嵌套的图像是以无限递归的forms出现的。

您会注意到看起来像空格实际上只是中文标点符号,它们比平时有更多的填充。

那么有没有任何规则说明不止一个词如何在它们之间结合起来作为一个单元脱颖而出。 这是令人困惑的,因为在中文写作中有空格,即使没有空格的单元也有多个单词。

可以这样想:一个汉字非常非常类似于一个英文单词。 通常需要将两个或更多个字符组合以形成一个单词,并且每个单独的字符可能意味着根据上下文完全不同的东西。

为了有意义地对中文文本进行标记,你必须将考虑到这一点的单词分段。

请参阅斯坦福NLP小组的中文自然语言处理和语音处理 。

Ken Lunde的书CJKV信息处理可能值得一看。 基本的单词顺序是主语 – 动词 – 宾语,但也参见http://en.wikipedia.org/wiki/Chinese_grammar中的 “主题突出”。