初めに
拡散モデルのTTSのEcho-TTSを動かしてみます
制限事項としては以下になります
- 主に英語向け(学習データに日本語が含まれるかは不明)
- 音声出力は CC-BY-NC-SA-4.0(非商用)ライセンス
開発環境
- Windows 11
- uv 0.9.x
環境構築
注意
Windows向けCUDA版は未提供のためCPU版をいれました
まずは以下のproject.tomlを作ります
[project] name = "echo-tts" version = "0.1.0" requires-python = ">=3.12" dependencies = [ "einops>=0.8.2", "gradio==5.49.1", "huggingface-hub>=1.7.2", "numpy>=2.4.3", "safetensors>=0.7.0", "torch>=2.10.0", "torchaudio>=2.10.0", "torchcodec>=0.10.0", ] [tool.uv.sources] torch = [{ index = "pytorch-cu126" }] torchaudio = [{ index = "pytorch-cu126" }] [[tool.uv.index]] name = "pytorch-cu126" url = "https://download.pytorch.org/whl/cu126" explicit = true
環境構築をします
uv sync
実行
以下でgradioのUIを起動します
uv run python gradio_app.py
英語の発音はすごくよく、リファレンスもかなりきれいに反映されていました
