FireRedTTS2をWindowsで動かす

初めに

長時間会話音声生成をするための音声合成ライブラリが出ていたので、試していきます

開発環境

環境構築

リポジトリのReadMeにはcondaで環境構築をしていますが、今回はuvを使っていきます

uv venv -p 3.11 

ReadMeに記載通りライブラリを入れていきます

uv pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126

# Step 2. Install Dependencies
uv pip install -e .
uv pip install -r requirements.txt

以下でモデルのダウンロードを行います

git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2

デモの起動

以下でデモが起動します

python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"

ランダムボイスの実行

ランダムボイスの場合は、リファレンス音声は必要ないため生成するためのテキストをルールに従って記載をしていきます

[S1]こんにちは、今日はいい天気ですね。[S2]そうですね、散歩に行きませんか?[S1]いいアイデアですね!公園に行きましょう。[S2]では、準備してきます。

ボイスクローン

こちらは特定の話者の音声を渡して、ゼロショットにて対話音声を作成する機能です (言語設定を英語にすると正常に動きませんでした)

windowsだとsoundfileを入れないとエラーになったので以下を実行しておきます

uv pip install soundfile  

精度に関してはゼロショットなので良くはなかったです