AI
初めに 開発環境 セットアップ 実行 sentis v1からv2への大きな変更点 変更された項目 削除された項目 備考 初めに 過去にsentisの1.3.0-pre.3で動かしていましたが、unity6およびsentis v2が出ているのでこちらでも動かしていきます。 過去の記事はこちら a…
初めに 開発環境 セットアップ 一人のエージェントにユーザー質問をする 記憶システムを追加 複数人のエージェントに対して質問をする 数年単位の複数エージェントに対しての文化シミュレーション 初めに LLM・LLM活用アドカレ 18日目です! genagentsは、生…
初めに 事前調査 開発環境 評価データ 対象のモデル 評価結果 評価方法 wespeaker xvector_jtubespeech 初めに 音声データを文字お越しをする際に、複数人の音声が入っている場合に 「誰がいつ話したのか」を推定する技術として 話者ダイアライゼーションが…
開発環境 セットアップ 実行 開発環境 python 3.9 uv セットアップ ライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行 以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…
初めに 開発環境 セットアップ 実行 初めに 今回は定番のpyanonoteとwhisperで話者ダイアライゼーションを行ってみます 以下で記事のサンプルリポジトリを公開しています github.com 過去にはほかのライブラリでも試しているので、ほかにどのようなライブラ…
初めに 開発環境 セットアップ CLIから実行 Pythonのコードで実行 備考 初めに wespeakerで話者ダイアライゼーションを行ってみます。 モデルは以下です huggingface.co 以下に記事の内容のRepositoryを公開しています github.com 開発環境 windows11 python…
初めに 開発環境 セットアップ 話者ダイアライゼーションを実行 初めに powerset_calibrationを使って音声内の話者ダイアライゼーションを行ってみます。論文によりデータセットには日本語が含まれていないため、日本語の音声に使う場合は自分で学習を行う必…
初めに 開発環境 原因 対応方法 備考 初めに NVIDIAが公開している日本語音声向けの音声認識モデル nvidia/parakeet-tdt_ctc-0.6b-jaを Windowsで動かす際に以下のエラーが出た多ため、対応方法を記載します packages\nemo\collections\asr\models\configs\a…
初めに 開発環境 セットアップ 文字お越しの実行 初めに reazon-researchが新しい音声認識モデルを公開されていたので触ってみます ReazonSpeech v2.1をリリースしました!v2.1で追加した新しい日本語ASRモデル、ReazonSpeech-k2-v2はONNXフォーマットで提供…
初めに 開発環境 セットアップ 実行 初めに CosyVoiceの教師あり音声トークナイザーに関するコードが出ていなかったため issue、以下のRepositoryにて再現実装が行われました。こちらを動かしていきます github.com 以下でライブラリのverを固定したReposito…
初めに 開発環境 DNSMOSについて 環境構築 音声ファイルの評価 初めに AI声づくり技術研究会 アドカレ 12日目です。 今回は 音声合成におけるデータセット作成の一つの重要な要素である データセットの音声評価について 比較的新しめの評価手法およびライブ…
初めに 開発環境 セットアップ 音声ファイルから推論 リアルタイムのインタラクティブDemoを動かす 初めに speech to speechのライブラリの Freeze-Omniを動かしていきます。これは従来のような speech to text(STT) → text to text(LLM) → text to speech(S…
初めに 開発環境 セットアップ ひらながに変換 辞書の変更 初めに TTSの学習のひとつで、文字列をすべてひらがなにしたい場合があります。その際に簡単に使える sudachiを使って処理をしてみます 以下にサンプルリポジトリを公開しています github.com 開発…
初めに 開発環境 セットアップ 話者分離の実行 初めに 最近公開された WeSpeakerを使って 音声データでいろいろ行っていきます。今回は、音声データ内の話者分離および話者数の特定を行います github.com 以下にてサンプルリポジトリを公開しています https:…
初めに 開発環境 セットアップ 動画推論 初めに 昨日以下のLLMを動かしました。 ayousanz.hatenadiary.jp 昨日のPRで動画の推論コードがマージされたので、触ってみます github.com 開発環境 Windows uv python 3.11 smollm[85a4eb2dd5dd0eb4e116264f1853ae2…
初めに 開発環境 セットアップ デフォルトの質問 初めに 小さくて精度が高いモデルが出たので、触っていきます。TRL CLIを使ってチャットもできるみたいなのでこちらも触ってみます github.com 開発環境 smollm[1e43f0dcd76261d4317cc2ee7258fe67d151d082] W…
初めに 開発環境 セットアップ データの準備 Custom Videoでの推論 初めに モーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます github.com 開発環境 Windows11 uv pyhton 3.10 セットアップ まずは環境を作っていきます uv venv…
初めに 開発環境 セットアップ モデル・データセットの配置 追加学習の実行 初めに 以前にtext to audioを AudioLDMを使って行いました。 ayousanz.hatenadiary.jp 今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。 以…
初めに 開発環境 セットアップ 推論 requirements.txt 初めに text to audioがいろいろある中で出てきた AudioLDMというCLAPを使って音声を生成するモデルを触ってみます github.com 開発環境 uv python 3.8 windows 11(powershell) セットアップ まずは公式…
初めに 開発環境 詳細 初めに microsoftからスクリーンショットの内容を理解するモデルおよびライブラリが出ているので、これを触っていきます。 環境構築のために、docker環境を作っていきます github.com 以下でdocker環境をまとめたリポジトリをあげてい…
初めに 開発環境 準備 GeminiAPIを使ってラベル付けつけ 初めに 音声のラベル付けをする場合、LLMを使って文字お越しデータから行う or マルチモーダルを使って音声およびテキストからラベル付けをする方法になります。 今回は、GeminaiのAPIを使って音声お…
初めに 開発環境 環境セットアップ 推論 初めに 日本の漫画フォーマットに特化したOCRのライブラリがあるので動かしてみます github.com 開発環境 uv python 3.10 mange-ocr 環境セットアップ 公式のままだとエラーになるので、pyproject.toml を変更します …
初めに 開発環境 構築時の詳細 FlashAttentionのインストールについて audiocraftのインストール pytorchの古い問題 ボリュームマウントを使ったフォルダ共有 推論 初めに こちら動かしていきます。 github.com 昔にライブラリのverが合わずに諦めていたので…
初めに 開発環境 セットアップ タンパク質とリガンド(分子)の情報から推論 結果 備考 clang不足エラー 初めに Boltz-1は、タンパク質、RNA、DNA、小分子などの生体分子の3D構造を予測することができます。面白そうなので実際に実行してみます github.com …
初めに 開発環境 ライブラリ ver 初めに 以下の学習にて以下のエラーにて前処理が止まることがあります。こちらの対応をしていきます packages/torchaudio/compliance/kaldi.py", line 142, in _get_waveform_and_window_properties assert 2 <= window_size …
初めに 開発環境 準備 実行 初めに ayousanz.hatenadiary.jp 開発環境 Linux H100(80GB) 準備 以下のライブラリをインストールします pip install torch --index-url https://download.pytorch.org/whl/nightly/cu121 pip install transformers==4.46.2 bits…
初めに 開発環境 実装 初めに 以下の記事でUnityでOpenAIのrealtime apiを使って音声のやり取りを行いました。今回は以下のやり取りをする際に ユーザーが入力をした音声の文字起こしを取得したい場合の設定についてです。 ayousanz.hatenadiary.jp 開発環境…
初めに 開発環境 準備 推論 使用VRAM 初めに SB Intuitions株式会社から現時点で日本語の性能が一番高い(らしい)モデルが出たので、動かしていきます。 /日本語に特化した4,000億クラスのパラメータを持つモデルを公開‼️\公開モデル:Sarashina2-8x70B詳細…
初めに 開発環境 環境構築 実行 初めに transformers v4.46.0にBitNetが追加されたみたいなので、今後加速しそうなBitNetの本家を触ってみます github.com MicrosoftのBitNetは以下です github.com 開発環境 Windows 11 CPU : AMD Ryzen 9 5900X メモリ : 64…
初めに 開発環境 準備 環境作成とライブラリのインストール 各モデルの配置 サーバーコードの修正 ローカルサーバーの起動 クライアントからサーバーを実行 エラー対応 pyopenjtalkのインストールがうまくいかない場合 torch関連が上手くいかない CMakeがな…