Tag: mallet

使用Java中的Mallet折叠(估计新文档的主题)在LDA中

我正在通过Java使用Mallet,我无法弄清楚如何针对我训练过的现有主题模型评估新文档。 我生成模型的初始代码与Mallett开发者指南中的主题建模非常相似,之后我只是将模型保存为Java对象。 在稍后的过程中,我从文件重新加载该Java对象,通过.addInstances()添加新实例,然后根据原始训练集中找到的主题仅评估这些新实例。 这个stats.SE线程提供了一些高级建议,但我看不出如何将它们用于Mallet框架。 任何帮助非常感谢。

如何获取新文档的主题向量并与Mallet中预定义的主题模型进行比较?

我试图以某种方式使用MALLET将唯一文档的主题分布(使用LDA)与之前创建的主题模型中的其他文件及其主题分布进行比较。 我知道这可以通过终端中的MALLET命令来完成,但是我在找到一种在Java中实现它的方法时遇到了问题。 要详细说明我的程序的function: 已创建的主题模型是使用大量文本创建的。 我想使用它来比较主题分布与包含特定主题标签的推文,然后从语料库中提取与推文最相似的文件。 我已经阅读了Mallet的Java API文档,但它们看起来很混乱,并没有真正解释。 如果有人能给我一些提示,我会很感激