WindowsでStreamVoiceAnonを動かしてボイス変換を試す

初めに

最近公開されたリアルタイム音声匿名化/音声変換モデルのStreamVoiceAnonを動かしていきます

github.com

開発環境

環境構築

uv venv .venv
.venv/bin/activate 

ライブラリを入れていきます

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126
uv pip install -r requirements.txt
uv pip install triton-windows==3.2.0.post13

モデルをダウンロードします

hf download Plachta/StreamVoiceAnon --local-dir pretrained_checkpoints/

ボイス変換の実行

実行コマンドは以下になります

python evaluations/infer_arvc.py --src_path <path_to_audio> --ref_path <path_to_audio> --out_dir <path_to_output_directory> --delay 2 --compile

サンプルのボイスを使って推論する場合は以下になります。srcの音声をrefの声質に変換します

python evaluations/infer_arvc.py --src_path test_waves/azuma_0.wav --ref_path test_waves/trump_0.wav --out_dir audio_outputs --delay 2 --compile

確認をしたところ日本語も生成ができました