Tag:

Mallet主题建模

我一直在使用mallet来推断包含100,000行(大约34 MB的mallet格式)的文本文件的主题。 但现在我需要在包含一百万行(大约180MB)的文件上运行它,我得到一个java.lang.outofmemoryexception。 有没有办法将文件拆分成较小的文件并为所有文件中存在的数据构建模型? 提前致谢

如何使用mallet获得单词主题概率

我使用mallet创建了一个并行主题模型。 我想为每个文档获得顶级单词。 为此,我试图获得一个单词主题概率矩阵。 我怎么做到这一点?