初めに
TTSのデータセットにはクリーンな音声が必要ですが、クリーンな音声を集めるためには労力がかなり大変になります。
以下はGoogle が発表した劣化した音声を高品質に変換する音声復元(SR)技術です。今回はこちらの再現リポジトリがあるので、試してみます
以下が再現リポジトリです
環境
- Window 11
準備
環境を作ります
git clone https://github.com/Wataru-Nakata/miipher.git cd .\miipher\ python -m venv venv .\venv\Scripts\activate pip install git+https://github.com/Wataru-Nakata/miipher
実行
以下でデモサイトがローカルで実行されます
python .\examples\demo.py
実際にやってみましたが、背景のノイズは除去されるものの文字起こしになっていない文字までは消せないようです
また生成される音声は元の音声に比べて音がこもった感じになっているみたいでした