pythonでvosk-apiを動かす

初めに

音声認識のローカルモデルにwhisper以外にもvosk-apiがあります。こちらを動かしていきます

日本語は以下の二つがあります。モデルは モデル一覧から確認できます

モデル名 サイズ 性能 説明 ライセンス
vosk-model-small-ja-0.22 48MB CSJ CER: 9.52
ted10k CER: 17.07
軽量な日本語の広帯域モデル Apache 2.0
vosk-model-ja-0.22 1GB CSJ CER: 8.40
ted10k CER: 13.91
大きな日本語モデル Apache 2.0

開発環境

環境作成

環境を作成してライブラリをインストールします

uv pip install vosk

次に日本語のモデルをダウンロードします。解凍して実行するパスに移動します

実行

以下で音声ファイルとモデルを指定して、cliから文字お越しを実行することができます

vosk-transcriber -m .\model\ -i .\VOICEACTRESS100_096.wav -o test.txt