初めに

新しいTTSのライブラリが出ていたので触っていきます。

以下概要です

MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai. Supported languages include:
The Chinese speaker supports mixed Chinese and English.
Fast enough for CPU real-time inference.

またライセンスが MTI licenseになっています

github.com

環境

L4 GPU
ubuntu22.04

準備

まずは推論をする為の環境を作っていきます。今回はanacondaを使ってpythonのverを公式と合わせます(3.11だと他のライブラリのverの違いで動きませんでした)

conda create -n melo-tts python=3.9
conda activate melo-tts
pip install -e .

必要なモデルをダウンロードします

python -m unidic download

実行

推論するためのWebUIをpublic url付きで実行します

melo-ui --share

実行後は上記のようなUIが起動します

またサンプルテキストで日本語で音声を作成した場合は、以下のような音声になりました

youtu.be

トレーニングコードはまだ公開されていないみたいなので、今後の期待です

yousanのメモ

MeloTTSを動かす

初めに

環境

準備

実行