Unity IL2CPPでの「インスタンスメソッドのデリゲートとコールバックの ビルド」のエラー対応

初めに 開発環境 原因 対応方法 1: コールバックメソッドを静的メソッドに変更 2. MonoPInvokeCallback 属性を追加 3. GCHandle を使用してデータを渡す 初めに Unity プロジェクトで IL2CPP ビルドに切り替えた際、ドラッグ時のアニメーション切り替えが正…

unity sentis v2.1.1でPhi-1.5を動かす

初めに 開発環境 セットアップ 実行 sentis v1からv2への大きな変更点 変更された項目 削除された項目 備考 初めに 過去にsentisの1.3.0-pre.3で動かしていましたが、unity6およびsentis v2が出ているのでこちらでも動かしていきます。 過去の記事はこちら a…

マルチステージやwhlなどを使ってdockerのビルドサイズを小さくする

初めに 開発環境 シンプルにimageを作る dockerignoreの対応 ビルド時に必要なファイルのみをコピーする torchをwhlからインストールする マルチステージでビルドを行う 初めに 以下のRepositoryにて モデルをonnxおよぼortモデルに変換する処理をdockerで行…

GitHub Actionsで特定のブランチから特定のブランチにアセットの差分のみを取り込むCIを構築する

初めに 背景 やりたいこと 実現方法 Actionsでの実装 Actionsの設定 初めに 今回は アセット環境における ブランチ間のアセット差分取り込みCIについて書いていきます。 今回は自動で以下のようなPRまでを自動で作ってくれるものを想定しています。 デモとし…

genagentsを使って文化シミュレーションを行う

AI

初めに 開発環境 セットアップ 一人のエージェントにユーザー質問をする 記憶システムを追加 複数人のエージェントに対して質問をする 数年単位の複数エージェントに対しての文化シミュレーション 初めに LLM・LLM活用アドカレ 18日目です! genagentsは、生…

wespeakerとxvectorの話者埋め込みモデルを使った日本語話者ダイアライゼーションの評価

AI

初めに 事前調査 開発環境 評価データ 対象のモデル 評価結果 評価方法 wespeaker xvector_jtubespeech 初めに 音声データを文字お越しをする際に、複数人の音声が入っている場合に 「誰がいつ話したのか」を推定する技術として 話者ダイアライゼーションが…

talkbank/callhomeの日本語音声をwav形式で保存する

AI

開発環境 セットアップ 実行 開発環境 python 3.9 uv セットアップ ライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行 以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…

pyannote + whisperで話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ 実行 初めに 今回は定番のpyanonoteとwhisperで話者ダイアライゼーションを行ってみます 以下で記事のサンプルリポジトリを公開しています github.com 過去にはほかのライブラリでも試しているので、ほかにどのようなライブラ…

Wespeaker/wespeaker-voxceleb-resnet34-LMで話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ CLIから実行 Pythonのコードで実行 備考 初めに wespeakerで話者ダイアライゼーションを行ってみます。 モデルは以下です huggingface.co 以下に記事の内容のRepositoryを公開しています github.com 開発環境 windows11 python…

powerset_calibrationを使って話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ 話者ダイアライゼーションを実行 初めに powerset_calibrationを使って音声内の話者ダイアライゼーションを行ってみます。論文によりデータセットには日本語が含まれていないため、日本語の音声に使う場合は自分で学習を行う必…

nvidia/parakeet-tdt_ctc-0.6b-jaをWindowsで動かす際のAttributeError: module 'signal' has no attribute 'SIGKILL'. Did you mean: 'SIGILL'?の対応

AI

初めに 開発環境 原因 対応方法 備考 初めに NVIDIAが公開している日本語音声向けの音声認識モデル nvidia/parakeet-tdt_ctc-0.6b-jaを Windowsで動かす際に以下のエラーが出た多ため、対応方法を記載します packages\nemo\collections\asr\models\configs\a…

reazonspeech-k2-v2を動かす

AI

初めに 開発環境 セットアップ 文字お越しの実行 初めに reazon-researchが新しい音声認識モデルを公開されていたので触ってみます ReazonSpeech v2.1をリリースしました!v2.1で追加した新しい日本語ASRモデル、ReazonSpeech-k2-v2はONNXフォーマットで提供…

S3Tokenizerを動かす

AI

初めに 開発環境 セットアップ 実行 初めに CosyVoiceの教師あり音声トークナイザーに関するコードが出ていなかったため issue、以下のRepositoryにて再現実装が行われました。こちらを動かしていきます github.com 以下でライブラリのverを固定したReposito…

DNSMOSで音声評価を行う

AI

初めに 開発環境 DNSMOSについて 環境構築 音声ファイルの評価 初めに AI声づくり技術研究会 アドカレ 12日目です。 今回は 音声合成におけるデータセット作成の一つの重要な要素である データセットの音声評価について 比較的新しめの評価手法およびライブ…

WindowsでFreeze-Omniを動かす

AI

初めに 開発環境 セットアップ 音声ファイルから推論 リアルタイムのインタラクティブDemoを動かす 初めに speech to speechのライブラリの Freeze-Omniを動かしていきます。これは従来のような speech to text(STT) → text to text(LLM) → text to speech(S…

sudachipyを使って文章をひらがなに変換する

AI

初めに 開発環境 セットアップ ひらながに変換 辞書の変更 初めに TTSの学習のひとつで、文字列をすべてひらがなにしたい場合があります。その際に簡単に使える sudachiを使って処理をしてみます 以下にサンプルリポジトリを公開しています github.com 開発…

WeSpeakerで音声データ内の話者分離および話者数の特定を行う

AI

初めに 開発環境 セットアップ 話者分離の実行 初めに 最近公開された WeSpeakerを使って 音声データでいろいろ行っていきます。今回は、音声データ内の話者分離および話者数の特定を行います github.com 以下にてサンプルリポジトリを公開しています https:…

UnityでDrawLineを使って擬似的にスフィアを描画する

初めに Demo 開発環境 実装 初めに Unityでrayの当たり判定でデバッグをする際に Gizmoや Drawlineを使って行うことが多々あります。今回は Gizmoが使えない(MonoBehaviourを継承していない or 更新関数を OnDrawGizmosまで伝播できない)場合の方法として Dr…

ローカルでsmollmで動画の内容に関する推論を行う

AI

初めに 開発環境 セットアップ 動画推論 初めに 昨日以下のLLMを動かしました。 ayousanz.hatenadiary.jp 昨日のPRで動画の推論コードがマージされたので、触ってみます github.com 開発環境 Windows uv python 3.11 smollm[85a4eb2dd5dd0eb4e116264f1853ae2…

ローカルでsmollmを動かす

AI

初めに 開発環境 セットアップ デフォルトの質問 初めに 小さくて精度が高いモデルが出たので、触っていきます。TRL CLIを使ってチャットもできるみたいなのでこちらも触ってみます github.com 開発環境 smollm[1e43f0dcd76261d4317cc2ee7258fe67d151d082] W…

WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

AI

初めに 開発環境 セットアップ データの準備 Custom Videoでの推論 初めに モーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます github.com 開発環境 Windows11 uv pyhton 3.10 セットアップ まずは環境を作っていきます uv venv…

FFmpegで連番の画像から動画を作成する

開発環境 連番画像から動画作成 開発環境 Windows11 FFmpeg N-113785-gfe340c3244-20240223 連番画像から動画作成 連番の画像があるフォルダで以下を実行 ffmpeg -framerate 30 -i %08d.jpg -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4 オプションにつ…

WSL2 + dockerの容量削減方法

初めに 開発環境 方法 初めに Windowsでdockerを使った開発を行っていると容量がどんどん増えていきます。定期的に掃除をする必要があるので、やり方のメモです 開発環境 Windows11 wsl 方法 以下の記事を参考にして、既存のdocker imageを削除 docker syste…

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

AI

初めに 開発環境 セットアップ モデル・データセットの配置 追加学習の実行 初めに 以前にtext to audioを AudioLDMを使って行いました。 ayousanz.hatenadiary.jp 今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。 以…

AudioLDMでtext to audioを行う

AI

初めに 開発環境 セットアップ 推論 requirements.txt 初めに text to audioがいろいろある中で出てきた AudioLDMというCLAPを使って音声を生成するモデルを触ってみます github.com 開発環境 uv python 3.8 windows 11(powershell) セットアップ まずは公式…

OmniParserをDockerで動かす

AI

初めに 開発環境 詳細 初めに microsoftからスクリーンショットの内容を理解するモデルおよびライブラリが出ているので、これを触っていきます。 環境構築のために、docker環境を作っていきます github.com 以下でdocker環境をまとめたリポジトリをあげてい…

GeminiAPIを使って音声データセットのラベル付けを行う

AI

初めに 開発環境 準備 GeminiAPIを使ってラベル付けつけ 初めに 音声のラベル付けをする場合、LLMを使って文字お越しデータから行う or マルチモーダルを使って音声およびテキストからラベル付けをする方法になります。 今回は、GeminaiのAPIを使って音声お…

manga-ocrを動かす

AI

初めに 開発環境 環境セットアップ 推論 初めに 日本の漫画フォーマットに特化したOCRのライブラリがあるので動かしてみます github.com 開発環境 uv python 3.10 mange-ocr 環境セットアップ 公式のままだとエラーになるので、pyproject.toml を変更します …

Kotoba-Speech v0.1をDockerを使ってローカル環境で推論を行う

AI

初めに 開発環境 構築時の詳細 FlashAttentionのインストールについて audiocraftのインストール pytorchの古い問題 ボリュームマウントを使ったフォルダ共有 推論 初めに こちら動かしていきます。 github.com 昔にライブラリのverが合わずに諦めていたので…

boltz(Boltz-1)を使って生体分子相互作用モデリングを行う

AI

初めに 開発環境 セットアップ タンパク質とリガンド(分子)の情報から推論 結果 備考 clang不足エラー 初めに Boltz-1は、タンパク質、RNA、DNA、小分子などの生体分子の3D構造を予測することができます。面白そうなので実際に実行してみます github.com …