VITA-Group/4DGenをGoogleColobで動かす

環境

  • Google Colob(ハイメモリ)

準備

ライブラリのインストール等を行います。

%cd /content
!git clone -b dev https://github.com/camenduru/4DGen
%cd /content/4DGen

!wget https://huggingface.co/camenduru/4DGen/resolve/main/rose.zip
!unzip /content/4DGen/rose.zip


!pip install -q https://github.com/camenduru/wheels/releases/download/colab/mmcv_full-1.7.1-cp310-cp310-linux_x86_64.whl
!pip install -q argparse lpips plyfile diffusers==0.23.1 accelerate rembg
!pip install -q kaolin==0.15.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-2.1.0_cu121.html
!pip install -q https://download.pytorch.org/whl/cu121/xformers-0.0.22.post7-cp310-cp310-manylinux2014_x86_64.whl
!pip install -q imageio==2.19.3 imageio-ffmpeg==0.4.7 -U

!git clone --recursive https://github.com/ashawkey/diff-gaussian-rasterization
!pip install -v ./diff-gaussian-rasterization
!pip install -v ./simple-knn

学習

T4でだいたい2.5時間ほどかかりました

%cd /content/4DGen
!python train.py --configs arguments/i2v.py -e rose

動画およびポイントクラウドデータの作成

以下で動画とポイントクラウドデータの作成を行います
このとき 指定するモデルパスは、 生成されるフォルダの子フォルダまで指定する必要がありました

%cd /content/4DGen
!python render.py --skip_train --configs arguments/i2v.py --skip_test --model_path "/content/4DGen/output/2023-12-29/rose_14:46:40/"

作成された動画は以下です

時系列動画

マルチ視点動画

また生成されたポイントクラウドデータは以下のような感じでした (確認は、MeshLabを使用しています)

使用リソース

GPU RAMは15GBあれば足りそうですが、メモリをそれなりに使いそうです