miipher非公式リポジトリで音声ファイルのノイズ除去を行う

AI

初めに環境準備実行初めに TTSのデータセットにはクリーンな音声が必要ですが、クリーンな音声を集めるためには労力がかなり大変になります。以下はGoogle が発表した劣化した音声を高品質に変換する音声復元(SR)技術です。今回はこちらの再現リポジト…

reazonspeech-nemo-v2を使ってフォルダ内にある音声ファイルの文字起こしをしてCSVとJsonに保存する

AI Python

初めにデモ開発環境準備文字お越し及びファイル保存エラー対応 CUDAがenabledになっていない場合 ReazonSpeech/pkg/nemo-asrのインストールが失敗する参考サイト初めに STTやTTSの学習等をする際に文字データが必要になるのですが、音声だけある場合…

AI

初めにわかっている人向けデモ開発環境環境の準備データセットの準備データの配置前処理の実行事前学習の開始 pthをsafetensorsに変換するマルチGPUで学習をする場合初めに Style-Bert-VITS2は、日本語におけるアクセントなどの改善によりTTSでは…