2024-08-01から1ヶ月間の記事一覧

stable-audio-toolsでstabilityai/stable-audio-open-1.0の推論を行う

AI

開発環境 準備 実行 備考 開発環境 Windows11 python 3.11 4070 ti super 準備 まずは stable-audio-toolsをcloneします 次に依存周りをインストールしていきます pip install . このままだとcudaが認識されないので、cudaに対応したライブラリのインストー…

pyannote.audioのInferenceの処理でDetails: choose a window size 400 that is [2, 251]のエラーが出る場合の対応

AI

初めに 開発環境 詳細 初めに 開発環境 Windows 11 Python 3.11 詳細 pyannote.audioのInferenceの処理で以下のエラーが出ることがあります。 Details: choose a window size 400 that is [2, 251] こちらは windowが"whole"になっていることで、"whole" オ…

pyworldを使った音声モーフィングの実装

AI

初めに Demo 開発環境 実装のアプローチ クロスフェード DTWを使ったモーフィング DTW + numbaにて高速化 初めに TTSをしている中で特定の音声同士を合わせた音声が欲しい時があります。TTSではマージがありますが、マージとは違うアプローチを考えていきま…

BigVGANをシンプルに動かす

AI

初めに 開発環境 準備 音声情報を再構築 初めに 音声からmel 情報を再構築をして再度音声に変換するライブラリ「BigVGAN」を動かしていきます。Demo用Gradioはありますが、あえて自分でコードを書いていきます github.com 開発環境 Windows 11 Python 3.11 …