Spark-TTSをローカルで動かす

初めに

少し前に出てきたTTSライブラリのSpark-TTSを動かしていきます。

開発環境

  • Windows11
  • uv

環境構築

ReadMeに従って環境構築を行います。環境構築にはuvを使っています。

uv venv -p 3.12
.venv\Scripts\activate

次にライブラリをインストールします。

uv pip install -r .\requirements.txt

次に必要なモデルをダウンロードします。 今回は対話モードを起動して、その中でモデルのダウンロード処理を行います

python

上記で対話モードを起動します。次に対話モード内で以下を実行します。

from huggingface_hub import snapshot_download

snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

WebUIの起動

モデルのダウンロードが終わったらWebUIを起動します。

python webui.py --device 0

http://localhost:7860/ にアクセスすることで、以下のようなWebUIが確認できます。