音声から3Dフェイシャルアニメーションを生成する「UniTalker」を実行する

初めに

音声から3Dフェイシャルアニメーションを生成する統合ニューラルネットワークモデル「UniTalker」を実行してみます

uvに統合 + ドキュメントの日本語対応したforkリポジトリは以下です

github.com

サンプル音声を実行した結果は以下のようになりました

youtube.com

また日本語の音声の場合は以下のようになりました( 音声はjvsを使用)

youtube.com

開発環境

  • Windows 11
  • uv

環境構築

以下のforkしたリポジトリをcloneします

github.com

環境を構築します

uv sync

実行

以下で推論をしてデータから3Dのフェイシャルアニメーションにレンダリングをします

# 推論
uv run python -m main.demo --config config/unitalker.yaml test_out_path ./test_results/demo.npz

# レンダリング
uv run python -m main.render ./test_results/demo.npz ./test_audios ./test_results/