初めに
新しいTTSのライブラリが出ていたので触っていきます。
以下概要です
MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai. Supported languages include:
The Chinese speaker supports mixed Chinese and English.
Fast enough for CPU real-time inference.
またライセンスが MTI licenseになっています
環境
- L4 GPU
- ubuntu22.04
準備
まずは推論をする為の環境を作っていきます。今回はanacondaを使ってpythonのverを公式と合わせます(3.11だと他のライブラリのverの違いで動きませんでした)
conda create -n melo-tts python=3.9 conda activate melo-tts pip install -e .
必要なモデルをダウンロードします
python -m unidic download
実行
推論するためのWebUIをpublic url付きで実行します
melo-ui --share
実行後は上記のようなUIが起動します
またサンプルテキストで日本語で音声を作成した場合は、以下のような音声になりました
トレーニングコードはまだ公開されていないみたいなので、今後の期待です