スピーカー参照条件付きのマルチスピーカー音声合成拡散モデル「Echo-TTS」をWindowsで推論をする

初めに

拡散モデルのTTSのEcho-TTSを動かしてみます

github.com

制限事項としては以下になります

  • 主に英語向け(学習データに日本語が含まれるかは不明)
  • 音声出力は CC-BY-NC-SA-4.0(非商用)ライセンス

開発環境

  • Windows 11
  • uv 0.9.x

環境構築

注意

Windows向けCUDA版は未提供のためCPU版をいれました

まずは以下のproject.tomlを作ります

[project]
name = "echo-tts"
version = "0.1.0"
requires-python = ">=3.12"
dependencies = [
    "einops>=0.8.2",
    "gradio==5.49.1",
    "huggingface-hub>=1.7.2",
    "numpy>=2.4.3",
    "safetensors>=0.7.0",
    "torch>=2.10.0",
    "torchaudio>=2.10.0",
    "torchcodec>=0.10.0",
]

[tool.uv.sources]
torch = [{ index = "pytorch-cu126" }]
torchaudio = [{ index = "pytorch-cu126" }]

[[tool.uv.index]]
name = "pytorch-cu126"
url = "https://download.pytorch.org/whl/cu126"
explicit = true

環境構築をします

uv sync

実行

以下でgradioのUIを起動します

uv run python gradio_app.py

英語の発音はすごくよく、リファレンスもかなりきれいに反映されていました