初めに
TTSおよびvoice cloneのモデルが出たので触ってみます。現時点では学習周りは一切できないみたいです
Today, we're excited to announce a beta release of Zonos, a highly expressive TTS model with high fidelity voice cloning.
— Zyphra (@ZyphraAI) 2025年2月10日
We release both transformer and SSM-hybrid models under an Apache 2.0 license.
Zonos performs well vs leading TTS providers in quality and expressiveness. pic.twitter.com/jaliZNJecm
トレーニングコードに関するissue
開発環境
- Windows11
- Zonos (de8d4d84f3fc83da7635b4741e5f1c3f1bf233aa)
実行
cloneしたコードだとうまく動かなったので、docker-compose.yml を以下のように修正をしました。
version: '3.8'
services:
zonos:
build:
context: .
dockerfile: Dockerfile
container_name: zonos_container
runtime: nvidia
ports:
- "7860:7860"
stdin_open: true
tty: true
command: ["python3", "gradio_interface.py"]
environment:
- NVIDIA_VISIBLE_DEVICES=0
- GRADIO_SHARE=False
実行コマンドは以下です
docker compose up
起動すると http://127.0.0.1:7860/ で以下のWebUIにアクセスできます

参考ボイスを指定した場合がvoice clone、指定しなかった場合はttsになります
生成した結果です
「こんにちは、明日は何をするの?」