如何使用CMU Sphinx 4将语音转换为带有英语voxforge模型的文本

我正在试图弄清楚如何使用sphinx4或pocketsphinx与英国voxforge模型,但我不能让它工作。 我试过阅读doc页面(比如这个http://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.html ),但它对我没有帮助。

我想要的是一个可执行文件,我可以在其中指定要使用的模型和要用作源的音频文件,并将可执行文件打印出来,最好猜测录制内容的声音。

我喜欢运气:pocketsphinx_continuous -infile recording.wav 2> / dev / null

但它会在转录完整的音频文件之前中止,并且默认模型可以通过几个单词来创建音频中的可读文本。

我已经编译并测试了sphinx4源程序包中的演示,但所有示例似乎都只有很少的单词,并且需要一个模型来使用voxforge对我有用。

我怎么设置它?

插入Voxforge声学模型非常简单。 涵盖API的主要文档是cmusphinx教程:

http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4

建议您在开始之前阅读它。 另请注意,建议使用En_US English Generic声学模型,它比Voxforge更准确。

您需要一步一步地执行以下操作:

  • 从sourceforge下载voxforge模型并将其解压缩到一个文件夹
  • 从github查看sphinx4并用gradle构建它
  • 运行TranscriberDemo
  • 转到sphinx4-samples / src / main / java / edu / cmu / sphinx / demo / transcriber文件夹,打开Transcriber演示并编辑声学模型路径,如下所示。
  • 如果需要其他音频文件,请在源中编辑音频文件的位置
  • 再次运行演示并享受

就是这样

// Load model from the folder in your project configuration.setAcousticModelPath("file:voxforge-en-0.4/model_parameters/voxforge_en_sphinx.cd_cont_5000");