Java中的语言识别
是否有任何语言识别开源Java? 仅适用于c / c ++。
UPD:
我在谈论人类文本语言。 例:
输入:我叫约翰。 输出:英文。
输入:Ich heisse John。 输出:德语。
输入:МенязовутДжон。 产出:俄罗斯。
了解您对Apache Tika中的版本的看法。 这假设您想要找出语言文本,而不是想要为编程语言构建解析器。
Textcat http://textcat.sourceforge.net/没有俄语,但它确实处理以下内容:
- 阿尔巴尼亚人
- 丹麦
- 荷兰人
- 英语
- 芬兰
- 法国
- 德语
- 匈牙利
- 意大利
- 挪威
- 抛光
- 斯洛伐克
- 斯洛文尼亚
- 西class牙语
- 瑞典
我认为ANTLR非常标准。
有语言检测API ,它通过HTTP POST接受文本,并返回带有检测到的语言和分数的JSON。 它可以从Java或任何其他编程语言中使用。