初めに
少し前に出てきたTTSライブラリのSpark-TTSを動かしていきます。
開発環境
- Windows11
- uv
環境構築
ReadMeに従って環境構築を行います。環境構築にはuvを使っています。
uv venv -p 3.12 .venv\Scripts\activate
次にライブラリをインストールします。
uv pip install -r .\requirements.txt
次に必要なモデルをダウンロードします。 今回は対話モードを起動して、その中でモデルのダウンロード処理を行います
python
上記で対話モードを起動します。次に対話モード内で以下を実行します。
from huggingface_hub import snapshot_download snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
WebUIの起動
モデルのダウンロードが終わったらWebUIを起動します。
python webui.py --device 0
http://localhost:7860/ にアクセスすることで、以下のようなWebUIが確認できます。
