ローカルでsmollmで動画の内容に関する推論を行う

AI

初めに開発環境セットアップ動画推論初めに昨日以下のLLMを動かしました。 ayousanz.hatenadiary.jp 昨日のPRで動画の推論コードがマージされたので、触ってみます github.com 開発環境 Windows uv python 3.11 smollm[85a4eb2dd5dd0eb4e116264f1853ae2…

2024-11-26

ローカルでsmollmを動かす

AI

初めに開発環境セットアップデフォルトの質問初めに小さくて精度が高いモデルが出たので、触っていきます。TRL CLIを使ってチャットもできるみたいなのでこちらも触ってみます github.com 開発環境 smollm[1e43f0dcd76261d4317cc2ee7258fe67d151d082] W…

2024-11-24

WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

AI

初めに開発環境セットアップデータの準備 Custom Videoでの推論初めにモーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます github.com 開発環境 Windows11 uv pyhton 3.10 セットアップまずは環境を作っていきます uv venv…

2024-11-24

FFmpegで連番の画像から動画を作成する

開発環境連番画像から動画作成開発環境 Windows11 FFmpeg N-113785-gfe340c3244-20240223 連番画像から動画作成連番の画像があるフォルダで以下を実行 ffmpeg -framerate 30 -i %08d.jpg -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4 オプションにつ…

2024-11-24

WSL2 + dockerの容量削減方法

初めに開発環境方法初めに Windowsでdockerを使った開発を行っていると容量がどんどん増えていきます。定期的に掃除をする必要があるので、やり方のメモです開発環境 Windows11 wsl 方法以下の記事を参考にして、既存のdocker imageを削除 docker syste…

2024-11-23

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

AI

初めに開発環境セットアップモデル・データセットの配置追加学習の実行初めに以前にtext to audioを AudioLDMを使って行いました。 ayousanz.hatenadiary.jp 今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。以…

2024-11-23

AudioLDMでtext to audioを行う

AI

初めに開発環境セットアップ推論 requirements.txt 初めに text to audioがいろいろある中で出てきた AudioLDMというCLAPを使って音声を生成するモデルを触ってみます github.com 開発環境 uv python 3.8 windows 11(powershell) セットアップまずは公式…

2024-11-21

OmniParserをDockerで動かす

AI

初めに開発環境詳細初めに microsoftからスクリーンショットの内容を理解するモデルおよびライブラリが出ているので、これを触っていきます。環境構築のために、docker環境を作っていきます github.com 以下でdocker環境をまとめたリポジトリをあげてい…

2024-11-21

GeminiAPIを使って音声データセットのラベル付けを行う

AI

初めに開発環境準備 GeminiAPIを使ってラベル付けつけ初めに音声のラベル付けをする場合、LLMを使って文字お越しデータから行う or マルチモーダルを使って音声およびテキストからラベル付けをする方法になります。今回は、GeminaiのAPIを使って音声お…

2024-11-19

manga-ocrを動かす

AI

初めに開発環境環境セットアップ推論初めに日本の漫画フォーマットに特化したOCRのライブラリがあるので動かしてみます github.com 開発環境 uv python 3.10 mange-ocr 環境セットアップ公式のままだとエラーになるので、pyproject.toml を変更します …

2024-11-19

Kotoba-Speech v0.1をDockerを使ってローカル環境で推論を行う

AI

初めに開発環境構築時の詳細 FlashAttentionのインストールについて audiocraftのインストール pytorchの古い問題ボリュームマウントを使ったフォルダ共有推論初めにこちら動かしていきます。 github.com 昔にライブラリのverが合わずに諦めていたので…

2024-11-19

boltz(Boltz-1)を使って生体分子相互作用モデリングを行う

AI

初めに開発環境セットアップタンパク質とリガンド（分子）の情報から推論結果備考 clang不足エラー初めに Boltz-1は、タンパク質、RNA、DNA、小分子などの生体分子の3D構造を予測することができます。面白そうなので実際に実行してみます github.com …

2024-11-17

Style-Bert-VITS2(SBV2)でAssertionError: choose a window size 400 that is [2, 251]の対応方法

AI

初めに開発環境ライブラリ ver 原因対応方法初めに以下の学習にて以下のエラーにて前処理が止まることがあります。こちらの対応をしていきます packages/torchaudio/compliance/kaldi.py", line 142, in _get_waveform_and_window_properties assert 2 …

2024-11-12

linuxのscreen環境でスクロールができない時にする対応

開発環境現象対応方法開発環境 Ubuntu 22.04 現象 linuxに仮想ターミナル化するライブラリがありますが、こちらを使用時にスクロールしても上部にあるものがスクロールされないことがあります。対応方法ホームディレクトリにある.screenrcファイルを編…

2024-11-12

XREALで掴めるオブジェクトの設定を行う

xR Unity

初めに開発環境詳細オブジェクト側の設定 1. Collider 2. RIgidbody 3. NRGrabbale Object オブジェクトの登録初めに以下の画像のように左側に自分で追加したオブジェクトをXREAL SDKを通して掴めるようにしていきます開発環境 Unity 2022.3.42f1 XREA…

2024-11-11

UnityでURPのLit shaderのモデルのmaterialのOffsetをスクリプトから変更する

Unity

初めに開発環境実装スクリプトからshaderのテクスチャーのプロパティについて MaterialPropertyBlockを使ってマテリアルのプロパティの取得・更新備考初めにテクスチャの位置を変更した実装を行う際にスクリプトから任意のタイミングで materialのoff…

2024-11-10

sbintuitions/sarashina2-70bを動かす

AI

初めに開発環境準備実行初めに ayousanz.hatenadiary.jp 開発環境 Linux H100(80GB) 準備以下のライブラリをインストールします pip install torch --index-url https://download.pytorch.org/whl/nightly/cu121 pip install transformers==4.46.2 bits…

2024-11-10

UnityでOpenAIのrealtime apiで入力した音声の文字起こしを取得する方法

Unity AI

初めに開発環境実装初めに以下の記事でUnityでOpenAIのrealtime apiを使って音声のやり取りを行いました。今回は以下のやり取りをする際にユーザーが入力をした音声の文字起こしを取得したい場合の設定についてです。 ayousanz.hatenadiary.jp 開発環境…

#Unity #C# #OpenAI #realtimeapi

2024-11-09

sbintuitions/sarashina2-8x70bを試す

AI

初めに開発環境準備推論使用VRAM 初めに SB Intuitions株式会社から現時点で日本語の性能が一番高い(らしい)モデルが出たので、動かしていきます。／日本語に特化した4,000億クラスのパラメータを持つモデルを公開‼️＼公開モデル：Sarashina2-8x70B詳細…

2024-11-04

microsoft/BitNetをWindowsで動かす

AI

初めに開発環境環境構築実行初めに transformers v4.46.0にBitNetが追加されたみたいなので、今後加速しそうなBitNetの本家を触ってみます github.com MicrosoftのBitNetは以下です github.com 開発環境 Windows 11 CPU : AMD Ryzen 9 5900X メモリ : 64…

2024-11-04

WindowsでGPT-SoVITSのローカルサーバーを立てる

AI Python

初めに開発環境準備環境作成とライブラリのインストール各モデルの配置サーバーコードの修正ローカルサーバーの起動クライアントからサーバーを実行エラー対応 pyopenjtalkのインストールがうまくいかない場合 torch関連が上手くいかない CMakeがな…

2024-11-03

UnityでOpenAIのrealtime apiのStream user audioを動かす

Unity AI

初めに開発環境実装の方針音声フォーマットについてイベントタイプの一覧 session.created response.created rate_limits.updated conversation.item.created response.output_item.added response.output_item.done response.content_part.added respon…

yousanのメモ

2024-11-01から1ヶ月間の記事一覧

ローカルでsmollmで動画の内容に関する推論を行う

ローカルでsmollmを動かす

WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

FFmpegで連番の画像から動画を作成する

WSL2 + dockerの容量削減方法

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

AudioLDMでtext to audioを行う

OmniParserをDockerで動かす

GeminiAPIを使って音声データセットのラベル付けを行う

manga-ocrを動かす

Kotoba-Speech v0.1をDockerを使ってローカル環境で推論を行う

boltz(Boltz-1)を使って生体分子相互作用モデリングを行う

Style-Bert-VITS2(SBV2)でAssertionError: choose a window size 400 that is [2, 251]の対応方法

linuxのscreen環境でスクロールができない時にする対応

XREALで掴めるオブジェクトの設定を行う

UnityでURPのLit shaderのモデルのmaterialのOffsetをスクリプトから変更する

sbintuitions/sarashina2-70bを動かす

UnityでOpenAIのrealtime apiで入力した音声の文字起こしを取得する方法

sbintuitions/sarashina2-8x70bを試す

microsoft/BitNetをWindowsで動かす

WindowsでGPT-SoVITSのローカルサーバーを立てる

UnityでOpenAIのrealtime apiのStream user audioを動かす