我正在开发一个数据库自我项目。 我有一个输入文件来自: http : //ir.dcs.gla.ac.uk/resources/test_collections/cran/ 在处理成1400个单独的文件后,每个文件名为00001.txt ,… 01400.txt …)并在对它们应用Stemming之后,我将它们分别存储在特定文件夹中,让我们用以下格式调用它: StemmedFolder : 在StemmedFolder中: 00001.txt包括: investig aerodynam wing slipstream brenckman experiment investig aerodynam wing 在StemmedFolder中: 00756.txt包括: remark eddi viscos compress mix flow lu ting 等等…. 我写了代码: 得到StemmedFolder ,统计独特的单词 按字母顺序排序 添加文档的ID 将每个保存到新文件00001.txt到01400.txt,如下所述 {我可以提供这4个部分的代码 ,以防有人需要了解实施或更改或任何编辑的方式} 每个文件的输出将产生一个单独的文件。 (1400,每个名为00001.txt , 00002.txt …)在特定文件夹中,我们可以使用以下格式调用它FrequenceyFolder : 在FrequenceyFolder: 00001.txt中包括: 00001,aerodynam,2 00001,agre,3 00001,angl,1 00001,attack,7 00001,basi,4 …. […]