初めに
最近公開されたリアルタイム音声匿名化/音声変換モデルのStreamVoiceAnonを動かしていきます
開発環境
- Windows 11
- uv 0.9.x
環境構築
uv venv .venv .venv/bin/activate
ライブラリを入れていきます
uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu126 uv pip install -r requirements.txt uv pip install triton-windows==3.2.0.post13
モデルをダウンロードします
hf download Plachta/StreamVoiceAnon --local-dir pretrained_checkpoints/
ボイス変換の実行
実行コマンドは以下になります
python evaluations/infer_arvc.py --src_path <path_to_audio> --ref_path <path_to_audio> --out_dir <path_to_output_directory> --delay 2 --compile
サンプルのボイスを使って推論する場合は以下になります。srcの音声をrefの声質に変換します
python evaluations/infer_arvc.py --src_path test_waves/azuma_0.wav --ref_path test_waves/trump_0.wav --out_dir audio_outputs --delay 2 --compile
確認をしたところ日本語も生成ができました