初めに
音声から3Dフェイシャルアニメーションを生成する統合ニューラルネットワークモデル「UniTalker」を実行してみます

uvに統合 + ドキュメントの日本語対応したforkリポジトリは以下です
サンプル音声を実行した結果は以下のようになりました
また日本語の音声の場合は以下のようになりました( 音声はjvsを使用)
開発環境
- Windows 11
- uv
環境構築
以下のforkしたリポジトリをcloneします
環境を構築します
uv sync
実行
以下で推論をしてデータから3Dのフェイシャルアニメーションにレンダリングをします
# 推論 uv run python -m main.demo --config config/unitalker.yaml test_out_path ./test_results/demo.npz # レンダリング uv run python -m main.render ./test_results/demo.npz ./test_audios ./test_results/