2024-02-24から1日間の記事一覧

miipher非公式リポジトリで音声ファイルのノイズ除去を行う

AI

初めに 環境 準備 実行 初めに TTSのデータセットにはクリーンな音声が必要ですが、クリーンな音声を集めるためには労力がかなり大変になります。 以下はGoogle が発表した劣化した音声を高品質に変換する音声復元(SR)技術です。今回はこちらの再現リポジト…

reazonspeech-nemo-v2を使ってフォルダ内にある音声ファイルの文字起こしをしてCSVとJsonに保存する

初めに デモ 開発環境 準備 文字お越し及びファイル保存 エラー対応 CUDAがenabledになっていない場合 ReazonSpeech/pkg/nemo-asrのインストールが失敗する 参考サイト 初めに STTやTTSの学習等をする際に文字データが必要になるのですが、音声だけある場合…

Style-Bert-VITS2の事前学習モデルを独自データで作成する

AI

初めに わかっている人向け デモ 開発環境 環境の準備 データセットの準備 データの配置 前処理の実行 事前学習の開始 pthをsafetensorsに変換する マルチGPUで学習をする場合 初めに Style-Bert-VITS2は、日本語におけるアクセントなどの改善によりTTSでは…