はじめに

VITS2よりも精度がよく、演技等もうまく出せるというBert-VITS2で学習をしていきます

結論学習は成功した？もの生成した音声がうまくいっておらず、成功はしていません

環境

Google Colob

参考サイト

こちらの記事を参考に進めていきます

zenn.dev

詰まったところ

追加でインストールしたライブラリ

!pip install --upgrade tensorflow-probability
!pip install kaleido cohere openai tiktoken

パラメータ設定周り

config.json の spk2id はモデル名 (作成したフォルダ名) を入れる必要がありそう

  "data": {
    "training_files": "Data/irisia_high/filelists/train.list",
    "validation_files": "Data/irisia_high/filelists/val.list",
    "max_wav_value": 32768.0,
    "sampling_rate": 44100,
    "filter_length": 2048,
    "hop_length": 512,
    "win_length": 2048,
    "n_mel_channels": 128,
    "mel_fmin": 0.0,
    "mel_fmax": null,
    "add_blank": true,
    "n_speakers": 896,
    "cleaned_text": true,
    "spk2id": {"irisia_high": 0}
  },