WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

初めに

モーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます

github.com

開発環境

  • Windows11
  • uv
  • pyhton 3.10

セットアップ

まずは環境を作っていきます

uv venv -p 3.10
.venv\Scripts\activate

ライブラリを ReadMeに従って入れていきます

uv pip install -e .
uv pip install -e ".[notebooks]"
uv pip install matplotlib==3.7 tikzplotlib jpeg4py opencv-python lmdb pandas scipy
uv pip install loguru

torchのcuda版を入れます

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 --force-reinstall

一部ダウンロードを自動で行うための処理を実行します

cd .\sam2\
cd .\checkpoints\
.\download_ckpts.sh

データの準備

現時点では、Custom Videoでの推論をするためのサンプルのデータがなかったので以下のデータセットを使っていきます

huggingface.co

airplane をダウンロードして、以下の airplane-1 を使っていきます

データが画像の連番になっているので、画像の連番から動画を作ります

ffmpegを使って以下のように変換をします

ffmpeg -framerate 24 -i %08d.jpg -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4

変換することで以下のような動画できます

xywh formatになっているテキストは groundtruth.txt を使っていきます

Custom Videoでの推論

以下で推論をします

python scripts/demo.py --video_path .\sam2\output.mp4 --txt_path .\sam2\groundtruth.txt

以下のようなようになります

youtu.be