如何使用mallet获得单词主题概率

我使用mallet创建了一个并行主题模型。

我想为每个文档获得顶级单词。

为此,我试图获得一个单词主题概率矩阵。

我怎么做到这一点?

使用mallet构建主题时,您有一个名为“–word-topic-counts-file”的选项。 当您提供此选项并指定文件时,mallet会为文件中的每一行写入(主题,单词,概率)值。 您可以稍后用C,Java或R(当然,任何语言)读取此文件以创建所需的矩阵。

只是对Praveen的答案提出一点意见。 使用“–word-topic-counts-file”MALLET将创建一个文件,前几行看起来像这样:

0伊丽莎白19:1
1 needham 19:2 17:1
2人死于19:2
3母17:1 19:1 14:1

第一行意味着伊丽莎白这个词曾出现在主题19中; 第二行表示needham这个词与主题19关联两次,主题17关联一次; 等等..
虽然此文件没有为您提供明确的概率,但您可以使用它来计算它们。