初めに
音声認識のローカルモデルにwhisper以外にもvosk-apiがあります。こちらを動かしていきます
日本語は以下の二つがあります。モデルは モデル一覧から確認できます
| モデル名 | サイズ | 性能 | 説明 | ライセンス |
|---|---|---|---|---|
vosk-model-small-ja-0.22 |
48MB | CSJ CER: 9.52 ted10k CER: 17.07 |
軽量な日本語の広帯域モデル | Apache 2.0 |
vosk-model-ja-0.22 |
1GB | CSJ CER: 8.40 ted10k CER: 13.91 |
大きな日本語モデル | Apache 2.0 |
開発環境
- Python 3.12
環境作成
環境を作成してライブラリをインストールします
uv pip install vosk
次に日本語のモデルをダウンロードします。解凍して実行するパスに移動します
実行
以下で音声ファイルとモデルを指定して、cliから文字お越しを実行することができます
vosk-transcriber -m .\model\ -i .\VOICEACTRESS100_096.wav -o test.txt