初めに

TTSのデータセットにはクリーンな音声が必要ですが、クリーンな音声を集めるためには労力がかなり大変になります。
以下はGoogle が発表した劣化した音声を高品質に変換する音声復元(SR)技術です。今回はこちらの再現リポジトリがあるので、試してみます

google.github.io

以下が再現リポジトリです

github.com

環境

Window 11

準備

環境を作ります

git clone https://github.com/Wataru-Nakata/miipher.git
cd .\miipher\
python -m venv venv
.\venv\Scripts\activate
pip install git+https://github.com/Wataru-Nakata/miipher

実行

以下でデモサイトがローカルで実行されます

python .\examples\demo.py

実際にやってみましたが、背景のノイズは除去されるものの文字起こしになっていない文字までは消せないようです
また生成される音声は元の音声に比べて音がこもった感じになっているみたいでした

yousanのメモ

miipher非公式リポジトリで音声ファイルのノイズ除去を行う

初めに

環境

準備

実行