初めに

モデルのサイズが軽量で動かせる kokoroがあります。こちらをpythonの環境で動かしていきます

テストプロジェクトは以下で公開しています

開発環境

Windows 11
Python 3.11

環境構築

まずは、必要な環境構築とライブラリのインストールを行います

uv venv -p 3.11
.venv\Scripts\activate

ライブラリのインストールを行います

uv pip install kokoro misaki[ja] IPython soundfile

次に unidicの辞書をダウンロードします

python -m unidic download

話者を指定して音声合成

以下を実行することで、日本語話者で日本語の音声を生成することができます

from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
pipeline = KPipeline(lang_code='j')

text = '「もしおれがただ偶然、そしてこうしようというつもりでなくここに立っているのなら、ちょっとばかり絶望するところだな」と、そんなことが彼の頭に思い浮かんだ。'

generator = pipeline(
    text, voice='jf_alpha',
    speed=1, split_pattern=r'\n+'
)


for i, (gs, ps, audio) in enumerate(generator):
    print(i)
    print(gs)
    print(ps)
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000)

言語ごとのモデルと話者の指定については以下に記載があります。

huggingface.co

yousanのメモ

Windowsでkokoro TTSを動かす

初めに

開発環境

環境構築

話者を指定して音声合成