初めに
長時間会話音声生成をするための音声合成ライブラリが出ていたので、試していきます
開発環境
- Windows 11
- uv
環境構築
リポジトリのReadMeにはcondaで環境構築をしていますが、今回はuvを使っていきます
uv venv -p 3.11
ReadMeに記載通りライブラリを入れていきます
uv pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126 # Step 2. Install Dependencies uv pip install -e . uv pip install -r requirements.txt
以下でモデルのダウンロードを行います
git lfs install git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2
デモの起動
以下でデモが起動します

python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"
ランダムボイスの実行
ランダムボイスの場合は、リファレンス音声は必要ないため生成するためのテキストをルールに従って記載をしていきます
[S1]こんにちは、今日はいい天気ですね。[S2]そうですね、散歩に行きませんか?[S1]いいアイデアですね!公園に行きましょう。[S2]では、準備してきます。
ボイスクローン
こちらは特定の話者の音声を渡して、ゼロショットにて対話音声を作成する機能です (言語設定を英語にすると正常に動きませんでした)
windowsだとsoundfileを入れないとエラーになったので以下を実行しておきます
uv pip install soundfile
精度に関してはゼロショットなので良くはなかったです