AI

unity sentis v2.1.1でPhi-1.5を動かす

初めに 開発環境 セットアップ 実行 sentis v1からv2への大きな変更点 変更された項目 削除された項目 備考 初めに 過去にsentisの1.3.0-pre.3で動かしていましたが、unity6およびsentis v2が出ているのでこちらでも動かしていきます。 過去の記事はこちら a…

genagentsを使って文化シミュレーションを行う

AI

初めに 開発環境 セットアップ 一人のエージェントにユーザー質問をする 記憶システムを追加 複数人のエージェントに対して質問をする 数年単位の複数エージェントに対しての文化シミュレーション 初めに LLM・LLM活用アドカレ 18日目です! genagentsは、生…

wespeakerとxvectorの話者埋め込みモデルを使った日本語話者ダイアライゼーションの評価

AI

初めに 事前調査 開発環境 評価データ 対象のモデル 評価結果 評価方法 wespeaker xvector_jtubespeech 初めに 音声データを文字お越しをする際に、複数人の音声が入っている場合に 「誰がいつ話したのか」を推定する技術として 話者ダイアライゼーションが…

talkbank/callhomeの日本語音声をwav形式で保存する

AI

開発環境 セットアップ 実行 開発環境 python 3.9 uv セットアップ ライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行 以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…

pyannote + whisperで話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ 実行 初めに 今回は定番のpyanonoteとwhisperで話者ダイアライゼーションを行ってみます 以下で記事のサンプルリポジトリを公開しています github.com 過去にはほかのライブラリでも試しているので、ほかにどのようなライブラ…

Wespeaker/wespeaker-voxceleb-resnet34-LMで話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ CLIから実行 Pythonのコードで実行 備考 初めに wespeakerで話者ダイアライゼーションを行ってみます。 モデルは以下です huggingface.co 以下に記事の内容のRepositoryを公開しています github.com 開発環境 windows11 python…

powerset_calibrationを使って話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ 話者ダイアライゼーションを実行 初めに powerset_calibrationを使って音声内の話者ダイアライゼーションを行ってみます。論文によりデータセットには日本語が含まれていないため、日本語の音声に使う場合は自分で学習を行う必…

nvidia/parakeet-tdt_ctc-0.6b-jaをWindowsで動かす際のAttributeError: module 'signal' has no attribute 'SIGKILL'. Did you mean: 'SIGILL'?の対応

AI

初めに 開発環境 原因 対応方法 備考 初めに NVIDIAが公開している日本語音声向けの音声認識モデル nvidia/parakeet-tdt_ctc-0.6b-jaを Windowsで動かす際に以下のエラーが出た多ため、対応方法を記載します packages\nemo\collections\asr\models\configs\a…

reazonspeech-k2-v2を動かす

AI

初めに 開発環境 セットアップ 文字お越しの実行 初めに reazon-researchが新しい音声認識モデルを公開されていたので触ってみます ReazonSpeech v2.1をリリースしました!v2.1で追加した新しい日本語ASRモデル、ReazonSpeech-k2-v2はONNXフォーマットで提供…

S3Tokenizerを動かす

AI

初めに 開発環境 セットアップ 実行 初めに CosyVoiceの教師あり音声トークナイザーに関するコードが出ていなかったため issue、以下のRepositoryにて再現実装が行われました。こちらを動かしていきます github.com 以下でライブラリのverを固定したReposito…

DNSMOSで音声評価を行う

AI

初めに 開発環境 DNSMOSについて 環境構築 音声ファイルの評価 初めに AI声づくり技術研究会 アドカレ 12日目です。 今回は 音声合成におけるデータセット作成の一つの重要な要素である データセットの音声評価について 比較的新しめの評価手法およびライブ…

WindowsでFreeze-Omniを動かす

AI

初めに 開発環境 セットアップ 音声ファイルから推論 リアルタイムのインタラクティブDemoを動かす 初めに speech to speechのライブラリの Freeze-Omniを動かしていきます。これは従来のような speech to text(STT) → text to text(LLM) → text to speech(S…

sudachipyを使って文章をひらがなに変換する

AI

初めに 開発環境 セットアップ ひらながに変換 辞書の変更 初めに TTSの学習のひとつで、文字列をすべてひらがなにしたい場合があります。その際に簡単に使える sudachiを使って処理をしてみます 以下にサンプルリポジトリを公開しています github.com 開発…

WeSpeakerで音声データ内の話者分離および話者数の特定を行う

AI

初めに 開発環境 セットアップ 話者分離の実行 初めに 最近公開された WeSpeakerを使って 音声データでいろいろ行っていきます。今回は、音声データ内の話者分離および話者数の特定を行います github.com 以下にてサンプルリポジトリを公開しています https:…

ローカルでsmollmで動画の内容に関する推論を行う

AI

初めに 開発環境 セットアップ 動画推論 初めに 昨日以下のLLMを動かしました。 ayousanz.hatenadiary.jp 昨日のPRで動画の推論コードがマージされたので、触ってみます github.com 開発環境 Windows uv python 3.11 smollm[85a4eb2dd5dd0eb4e116264f1853ae2…

ローカルでsmollmを動かす

AI

初めに 開発環境 セットアップ デフォルトの質問 初めに 小さくて精度が高いモデルが出たので、触っていきます。TRL CLIを使ってチャットもできるみたいなのでこちらも触ってみます github.com 開発環境 smollm[1e43f0dcd76261d4317cc2ee7258fe67d151d082] W…

WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

AI

初めに 開発環境 セットアップ データの準備 Custom Videoでの推論 初めに モーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます github.com 開発環境 Windows11 uv pyhton 3.10 セットアップ まずは環境を作っていきます uv venv…

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

AI

初めに 開発環境 セットアップ モデル・データセットの配置 追加学習の実行 初めに 以前にtext to audioを AudioLDMを使って行いました。 ayousanz.hatenadiary.jp 今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。 以…

AudioLDMでtext to audioを行う

AI

初めに 開発環境 セットアップ 推論 requirements.txt 初めに text to audioがいろいろある中で出てきた AudioLDMというCLAPを使って音声を生成するモデルを触ってみます github.com 開発環境 uv python 3.8 windows 11(powershell) セットアップ まずは公式…

OmniParserをDockerで動かす

AI

初めに 開発環境 詳細 初めに microsoftからスクリーンショットの内容を理解するモデルおよびライブラリが出ているので、これを触っていきます。 環境構築のために、docker環境を作っていきます github.com 以下でdocker環境をまとめたリポジトリをあげてい…

GeminiAPIを使って音声データセットのラベル付けを行う

AI

初めに 開発環境 準備 GeminiAPIを使ってラベル付けつけ 初めに 音声のラベル付けをする場合、LLMを使って文字お越しデータから行う or マルチモーダルを使って音声およびテキストからラベル付けをする方法になります。 今回は、GeminaiのAPIを使って音声お…

manga-ocrを動かす

AI

初めに 開発環境 環境セットアップ 推論 初めに 日本の漫画フォーマットに特化したOCRのライブラリがあるので動かしてみます github.com 開発環境 uv python 3.10 mange-ocr 環境セットアップ 公式のままだとエラーになるので、pyproject.toml を変更します …

Kotoba-Speech v0.1をDockerを使ってローカル環境で推論を行う

AI

初めに 開発環境 構築時の詳細 FlashAttentionのインストールについて audiocraftのインストール pytorchの古い問題 ボリュームマウントを使ったフォルダ共有 推論 初めに こちら動かしていきます。 github.com 昔にライブラリのverが合わずに諦めていたので…

boltz(Boltz-1)を使って生体分子相互作用モデリングを行う

AI

初めに 開発環境 セットアップ タンパク質とリガンド(分子)の情報から推論 結果 備考 clang不足エラー 初めに Boltz-1は、タンパク質、RNA、DNA、小分子などの生体分子の3D構造を予測することができます。面白そうなので実際に実行してみます github.com …

Style-Bert-VITS2(SBV2)でAssertionError: choose a window size 400 that is [2, 251]の対応方法

AI

初めに 開発環境 ライブラリ ver 初めに 以下の学習にて以下のエラーにて前処理が止まることがあります。こちらの対応をしていきます packages/torchaudio/compliance/kaldi.py", line 142, in _get_waveform_and_window_properties assert 2 <= window_size …

sbintuitions/sarashina2-70bを動かす

AI

初めに 開発環境 準備 実行 初めに ayousanz.hatenadiary.jp 開発環境 Linux H100(80GB) 準備 以下のライブラリをインストールします pip install torch --index-url https://download.pytorch.org/whl/nightly/cu121 pip install transformers==4.46.2 bits…

UnityでOpenAIのrealtime apiで入力した音声の文字起こしを取得する方法

初めに 開発環境 実装 初めに 以下の記事でUnityでOpenAIのrealtime apiを使って音声のやり取りを行いました。今回は以下のやり取りをする際に ユーザーが入力をした音声の文字起こしを取得したい場合の設定についてです。 ayousanz.hatenadiary.jp 開発環境…

sbintuitions/sarashina2-8x70bを試す

AI

初めに 開発環境 準備 推論 使用VRAM 初めに SB Intuitions株式会社から現時点で日本語の性能が一番高い(らしい)モデルが出たので、動かしていきます。 /日本語に特化した4,000億クラスのパラメータを持つモデルを公開‼️\公開モデル:Sarashina2-8x70B詳細…

microsoft/BitNetをWindowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに transformers v4.46.0にBitNetが追加されたみたいなので、今後加速しそうなBitNetの本家を触ってみます github.com MicrosoftのBitNetは以下です github.com 開発環境 Windows 11 CPU : AMD Ryzen 9 5900X メモリ : 64…

WindowsでGPT-SoVITSのローカルサーバーを立てる

初めに 開発環境 準備 環境作成とライブラリのインストール 各モデルの配置 サーバーコードの修正 ローカルサーバーの起動 クライアントからサーバーを実行 エラー対応 pyopenjtalkのインストールがうまくいかない場合 torch関連が上手くいかない CMakeがな…