Tag: 数据字典

文本分割:基于字典的单词拆分

背景 将数据库列名拆分为等效的英文文本以播种数据字典。 英语词典是从公司文档,维基和电子邮件的语料库中创建的。 字典( lexicon.csv )是一个包含单词和概率的CSV文件。 因此,有人写“治疗师”这个词(在电子邮件或维基页面上)的次数越多,“治疗师名称”分裂为“治疗师名称”的可能性就越高,而不是其他东西。 (词典可能甚至不包括强奸犯这个词。) 源代码 TextSegmenter.java @ http://pastebin.com/taXyE03L SortableValueMap.java @ http://pastebin.com/v3hRXYan 数据文件 lexicon.csv – http://pastebin.com/0crECtXY columns.txt – http://pastebin.com/EtN9Qesr 问题(更新2011-01-03) 遇到以下问题时: dependentrelationship::end depend ent dependent relationship end=0.86 ent=0.001 dependent=0.8 relationship=0.9 存在以下可能的解决方 dependentrelationship::dependent relationship dependentrelationship::dep end ent relationship dependentrelationship::depend ent relationship 词典包含具有相对概率的词(基于词频): dependent 0.8 , end 0.86 , relationship 0.9 , depend 0.3 […]