初めに 開発環境 原因 対応方法 1: コールバックメソッドを静的メソッドに変更 2. MonoPInvokeCallback 属性を追加 3. GCHandle を使用してデータを渡す 初めに Unity プロジェクトで IL2CPP ビルドに切り替えた際、ドラッグ時のアニメーション切り替えが正…
初めに 開発環境 セットアップ 実行 sentis v1からv2への大きな変更点 変更された項目 削除された項目 備考 初めに 過去にsentisの1.3.0-pre.3で動かしていましたが、unity6およびsentis v2が出ているのでこちらでも動かしていきます。 過去の記事はこちら a…
初めに 開発環境 シンプルにimageを作る dockerignoreの対応 ビルド時に必要なファイルのみをコピーする torchをwhlからインストールする マルチステージでビルドを行う 初めに 以下のRepositoryにて モデルをonnxおよぼortモデルに変換する処理をdockerで行…
初めに 背景 やりたいこと 実現方法 Actionsでの実装 Actionsの設定 初めに 今回は アセット環境における ブランチ間のアセット差分取り込みCIについて書いていきます。 今回は自動で以下のようなPRまでを自動で作ってくれるものを想定しています。 デモとし…
初めに 開発環境 セットアップ 一人のエージェントにユーザー質問をする 記憶システムを追加 複数人のエージェントに対して質問をする 数年単位の複数エージェントに対しての文化シミュレーション 初めに LLM・LLM活用アドカレ 18日目です! genagentsは、生…
初めに 事前調査 開発環境 評価データ 対象のモデル 評価結果 評価方法 wespeaker xvector_jtubespeech 初めに 音声データを文字お越しをする際に、複数人の音声が入っている場合に 「誰がいつ話したのか」を推定する技術として 話者ダイアライゼーションが…
開発環境 セットアップ 実行 開発環境 python 3.9 uv セットアップ ライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行 以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…
初めに 開発環境 セットアップ 実行 初めに 今回は定番のpyanonoteとwhisperで話者ダイアライゼーションを行ってみます 以下で記事のサンプルリポジトリを公開しています github.com 過去にはほかのライブラリでも試しているので、ほかにどのようなライブラ…
初めに 開発環境 セットアップ CLIから実行 Pythonのコードで実行 備考 初めに wespeakerで話者ダイアライゼーションを行ってみます。 モデルは以下です huggingface.co 以下に記事の内容のRepositoryを公開しています github.com 開発環境 windows11 python…
初めに 開発環境 セットアップ 話者ダイアライゼーションを実行 初めに powerset_calibrationを使って音声内の話者ダイアライゼーションを行ってみます。論文によりデータセットには日本語が含まれていないため、日本語の音声に使う場合は自分で学習を行う必…
初めに 開発環境 原因 対応方法 備考 初めに NVIDIAが公開している日本語音声向けの音声認識モデル nvidia/parakeet-tdt_ctc-0.6b-jaを Windowsで動かす際に以下のエラーが出た多ため、対応方法を記載します packages\nemo\collections\asr\models\configs\a…
初めに 開発環境 セットアップ 文字お越しの実行 初めに reazon-researchが新しい音声認識モデルを公開されていたので触ってみます ReazonSpeech v2.1をリリースしました!v2.1で追加した新しい日本語ASRモデル、ReazonSpeech-k2-v2はONNXフォーマットで提供…
初めに 開発環境 セットアップ 実行 初めに CosyVoiceの教師あり音声トークナイザーに関するコードが出ていなかったため issue、以下のRepositoryにて再現実装が行われました。こちらを動かしていきます github.com 以下でライブラリのverを固定したReposito…
初めに 開発環境 DNSMOSについて 環境構築 音声ファイルの評価 初めに AI声づくり技術研究会 アドカレ 12日目です。 今回は 音声合成におけるデータセット作成の一つの重要な要素である データセットの音声評価について 比較的新しめの評価手法およびライブ…
初めに 開発環境 セットアップ 音声ファイルから推論 リアルタイムのインタラクティブDemoを動かす 初めに speech to speechのライブラリの Freeze-Omniを動かしていきます。これは従来のような speech to text(STT) → text to text(LLM) → text to speech(S…
初めに 開発環境 セットアップ ひらながに変換 辞書の変更 初めに TTSの学習のひとつで、文字列をすべてひらがなにしたい場合があります。その際に簡単に使える sudachiを使って処理をしてみます 以下にサンプルリポジトリを公開しています github.com 開発…
初めに 開発環境 セットアップ 話者分離の実行 初めに 最近公開された WeSpeakerを使って 音声データでいろいろ行っていきます。今回は、音声データ内の話者分離および話者数の特定を行います github.com 以下にてサンプルリポジトリを公開しています https:…
初めに Demo 開発環境 実装 初めに Unityでrayの当たり判定でデバッグをする際に Gizmoや Drawlineを使って行うことが多々あります。今回は Gizmoが使えない(MonoBehaviourを継承していない or 更新関数を OnDrawGizmosまで伝播できない)場合の方法として Dr…
初めに 開発環境 セットアップ 動画推論 初めに 昨日以下のLLMを動かしました。 ayousanz.hatenadiary.jp 昨日のPRで動画の推論コードがマージされたので、触ってみます github.com 開発環境 Windows uv python 3.11 smollm[85a4eb2dd5dd0eb4e116264f1853ae2…
初めに 開発環境 セットアップ デフォルトの質問 初めに 小さくて精度が高いモデルが出たので、触っていきます。TRL CLIを使ってチャットもできるみたいなのでこちらも触ってみます github.com 開発環境 smollm[1e43f0dcd76261d4317cc2ee7258fe67d151d082] W…
初めに 開発環境 セットアップ データの準備 Custom Videoでの推論 初めに モーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます github.com 開発環境 Windows11 uv pyhton 3.10 セットアップ まずは環境を作っていきます uv venv…
開発環境 連番画像から動画作成 開発環境 Windows11 FFmpeg N-113785-gfe340c3244-20240223 連番画像から動画作成 連番の画像があるフォルダで以下を実行 ffmpeg -framerate 30 -i %08d.jpg -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4 オプションにつ…
初めに 開発環境 方法 初めに Windowsでdockerを使った開発を行っていると容量がどんどん増えていきます。定期的に掃除をする必要があるので、やり方のメモです 開発環境 Windows11 wsl 方法 以下の記事を参考にして、既存のdocker imageを削除 docker syste…
初めに 開発環境 セットアップ モデル・データセットの配置 追加学習の実行 初めに 以前にtext to audioを AudioLDMを使って行いました。 ayousanz.hatenadiary.jp 今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。 以…
初めに 開発環境 セットアップ 推論 requirements.txt 初めに text to audioがいろいろある中で出てきた AudioLDMというCLAPを使って音声を生成するモデルを触ってみます github.com 開発環境 uv python 3.8 windows 11(powershell) セットアップ まずは公式…
初めに 開発環境 詳細 初めに microsoftからスクリーンショットの内容を理解するモデルおよびライブラリが出ているので、これを触っていきます。 環境構築のために、docker環境を作っていきます github.com 以下でdocker環境をまとめたリポジトリをあげてい…
初めに 開発環境 準備 GeminiAPIを使ってラベル付けつけ 初めに 音声のラベル付けをする場合、LLMを使って文字お越しデータから行う or マルチモーダルを使って音声およびテキストからラベル付けをする方法になります。 今回は、GeminaiのAPIを使って音声お…
初めに 開発環境 環境セットアップ 推論 初めに 日本の漫画フォーマットに特化したOCRのライブラリがあるので動かしてみます github.com 開発環境 uv python 3.10 mange-ocr 環境セットアップ 公式のままだとエラーになるので、pyproject.toml を変更します …
初めに 開発環境 構築時の詳細 FlashAttentionのインストールについて audiocraftのインストール pytorchの古い問題 ボリュームマウントを使ったフォルダ共有 推論 初めに こちら動かしていきます。 github.com 昔にライブラリのverが合わずに諦めていたので…
初めに 開発環境 セットアップ タンパク質とリガンド(分子)の情報から推論 結果 備考 clang不足エラー 初めに Boltz-1は、タンパク質、RNA、DNA、小分子などの生体分子の3D構造を予測することができます。面白そうなので実際に実行してみます github.com …