初めに
モデルのサイズが軽量で動かせる kokoroがあります。こちらをpythonの環境で動かしていきます
テストプロジェクトは以下で公開しています
開発環境
環境構築
まずは、必要な環境構築とライブラリのインストールを行います
uv venv -p 3.11 .venv\Scripts\activate
ライブラリのインストールを行います
uv pip install kokoro misaki[ja] IPython soundfile
次に unidicの辞書をダウンロードします
python -m unidic download
話者を指定して音声合成
以下を実行することで、日本語話者で日本語の音声を生成することができます
from kokoro import KPipeline from IPython.display import display, Audio import soundfile as sf pipeline = KPipeline(lang_code='j') text = '「もしおれがただ偶然、そしてこうしようというつもりでなくここに立っているのなら、ちょっとばかり絶望するところだな」と、そんなことが彼の頭に思い浮かんだ。' generator = pipeline( text, voice='jf_alpha', speed=1, split_pattern=r'\n+' ) for i, (gs, ps, audio) in enumerate(generator): print(i) print(gs) print(ps) display(Audio(data=audio, rate=24000, autoplay=i==0)) sf.write(f'{i}.wav', audio, 24000)
言語ごとのモデルと話者の指定については以下に記載があります。