初めに
モーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます
開発環境
- Windows11
- uv
- pyhton 3.10
セットアップ
まずは環境を作っていきます
uv venv -p 3.10 .venv\Scripts\activate
ライブラリを ReadMeに従って入れていきます
uv pip install -e . uv pip install -e ".[notebooks]" uv pip install matplotlib==3.7 tikzplotlib jpeg4py opencv-python lmdb pandas scipy uv pip install loguru
torchのcuda版を入れます
uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 --force-reinstall
一部ダウンロードを自動で行うための処理を実行します
cd .\sam2\ cd .\checkpoints\ .\download_ckpts.sh
データの準備
現時点では、Custom Videoでの推論をするためのサンプルのデータがなかったので以下のデータセットを使っていきます
airplane
をダウンロードして、以下の airplane-1
を使っていきます
データが画像の連番になっているので、画像の連番から動画を作ります
ffmpegを使って以下のように変換をします
ffmpeg -framerate 24 -i %08d.jpg -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4
変換することで以下のような動画できます
連番画像から動画の変換はできた pic.twitter.com/cIjZ65Cuew
— ようさん (@ayousanz) 2024年11月24日
xywh formatになっているテキストは groundtruth.txt
を使っていきます
Custom Videoでの推論
以下で推論をします
python scripts/demo.py --video_path .\sam2\output.mp4 --txt_path .\sam2\groundtruth.txt
以下のようなようになります