低レイテンシな音声コードブック生成+軽量デコーダのストリーミング志向オープンソース多言語TTS「kani-tts」を動かす

初めに

多言語対応している高速なTTS kani-ttsを動かしていきます

開発環境

環境構築

必要なライブラリを入れます

uv venv .venv --python 3.12
uv pip install --python .venv/bin/python "nemo-toolkit[tts]==2.4.0"
uv pip install --python .venv/bin/python --no-deps --force-reinstall "transformers==4.57.1"
uv pip install --python .venv/bin/python "tokenizers==0.22.0"

Torch や Matplotlib が書き込みできる場所を明示する。

mkdir -p tmp hf_cache
export TMPDIR="$(pwd)/tmp"
export HF_HOME="$(pwd)/hf_cache"

実行

英語の文章を生成する場合は以下を実行します

TMPDIR=./tmp HF_HOME=./hf_cache .venv/bin/python examples/basic/main.py

精度としては英語以外は微妙な感じでした