マルチステージやwhlなどを使ってdockerのビルドサイズを小さくする

初めに開発環境シンプルにimageを作る dockerignoreの対応ビルド時に必要なファイルのみをコピーする torchをwhlからインストールするマルチステージでビルドを行う初めに以下のRepositoryにてモデルをonnxおよぼortモデルに変換する処理をdockerで行…

2024-12-18

GitHub Actionsで特定のブランチから特定のブランチにアセットの差分のみを取り込むCIを構築する

GitHubActions

初めに背景やりたいこと実現方法 Actionsでの実装 Actionsの設定初めに今回はアセット環境におけるブランチ間のアセット差分取り込みCIについて書いていきます。今回は自動で以下のようなPRまでを自動で作ってくれるものを想定しています。デモとし…

2024-12-18

genagentsを使って文化シミュレーションを行う

AI

初めに開発環境セットアップ一人のエージェントにユーザー質問をする記憶システムを追加複数人のエージェントに対して質問をする数年単位の複数エージェントに対しての文化シミュレーション初めに LLM・LLM活用アドカレ 18日目です！ genagentsは、生…

2024-12-17

wespeakerとxvectorの話者埋め込みモデルを使った日本語話者ダイアライゼーションの評価

AI

初めに事前調査開発環境評価データ対象のモデル評価結果評価方法 wespeaker xvector_jtubespeech 初めに音声データを文字お越しをする際に、複数人の音声が入っている場合に「誰がいつ話したのか」を推定する技術として話者ダイアライゼーションが…

2024-12-17

talkbank/callhomeの日本語音声をwav形式で保存する

AI

開発環境セットアップ実行開発環境 python 3.9 uv セットアップライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…

2024-12-16

pyannote + whisperで話者ダイアライゼーションを行う

AI

初めに開発環境セットアップ実行初めに今回は定番のpyanonoteとwhisperで話者ダイアライゼーションを行ってみます以下で記事のサンプルリポジトリを公開しています github.com 過去にはほかのライブラリでも試しているので、ほかにどのようなライブラ…

2024-12-15

Wespeaker/wespeaker-voxceleb-resnet34-LMで話者ダイアライゼーションを行う

AI

初めに開発環境セットアップ CLIから実行 Pythonのコードで実行備考初めに wespeakerで話者ダイアライゼーションを行ってみます。モデルは以下です huggingface.co 以下に記事の内容のRepositoryを公開しています github.com 開発環境 windows11 python…

2024-12-15

powerset_calibrationを使って話者ダイアライゼーションを行う

AI

初めに開発環境セットアップ話者ダイアライゼーションを実行初めに powerset_calibrationを使って音声内の話者ダイアライゼーションを行ってみます。論文によりデータセットには日本語が含まれていないため、日本語の音声に使う場合は自分で学習を行う必…

2024-12-15

nvidia/parakeet-tdt_ctc-0.6b-jaをWindowsで動かす際のAttributeError: module 'signal' has no attribute 'SIGKILL'. Did you mean: 'SIGILL'?の対応

AI

初めに開発環境原因対応方法備考初めに NVIDIAが公開している日本語音声向けの音声認識モデル nvidia/parakeet-tdt_ctc-0.6b-jaを Windowsで動かす際に以下のエラーが出た多ため、対応方法を記載します packages\nemo\collections\asr\models\configs\a…

2024-12-15

reazonspeech-k2-v2を動かす

AI

初めに開発環境セットアップ文字お越しの実行初めに reazon-researchが新しい音声認識モデルを公開されていたので触ってみます ReazonSpeech v2.1をリリースしました！v2.1で追加した新しい日本語ASRモデル、ReazonSpeech-k2-v2はONNXフォーマットで提供…

2024-12-13

S3Tokenizerを動かす

AI

初めに開発環境セットアップ実行初めに CosyVoiceの教師あり音声トークナイザーに関するコードが出ていなかったため issue、以下のRepositoryにて再現実装が行われました。こちらを動かしていきます github.com 以下でライブラリのverを固定したReposito…

2024-12-12

DNSMOSで音声評価を行う

AI

初めに開発環境 DNSMOSについて環境構築音声ファイルの評価初めに AI声づくり技術研究会アドカレ 12日目です。今回は音声合成におけるデータセット作成の一つの重要な要素であるデータセットの音声評価について比較的新しめの評価手法およびライブ…

2024-12-12

WindowsでFreeze-Omniを動かす

AI

初めに開発環境セットアップ音声ファイルから推論リアルタイムのインタラクティブDemoを動かす初めに speech to speechのライブラリの Freeze-Omniを動かしていきます。これは従来のような speech to text(STT) → text to text(LLM) → text to speech(S…

2024-12-10

sudachipyを使って文章をひらがなに変換する

AI

初めに開発環境セットアップひらながに変換辞書の変更初めに TTSの学習のひとつで、文字列をすべてひらがなにしたい場合があります。その際に簡単に使える sudachiを使って処理をしてみます以下にサンプルリポジトリを公開しています github.com 開発…

2024-12-10

WeSpeakerで音声データ内の話者分離および話者数の特定を行う

AI

初めに開発環境セットアップ話者分離の実行初めに最近公開された WeSpeakerを使って音声データでいろいろ行っていきます。今回は、音声データ内の話者分離および話者数の特定を行います github.com 以下にてサンプルリポジトリを公開しています https:…

2024-12-08

UnityでDrawLineを使って擬似的にスフィアを描画する

Unity

初めに Demo 開発環境実装初めに Unityでrayの当たり判定でデバッグをする際に Gizmoや Drawlineを使って行うことが多々あります。今回は Gizmoが使えない(MonoBehaviourを継承していない or 更新関数を OnDrawGizmosまで伝播できない)場合の方法として Dr…

2024-11-27

ローカルでsmollmで動画の内容に関する推論を行う

AI

初めに開発環境セットアップ動画推論初めに昨日以下のLLMを動かしました。 ayousanz.hatenadiary.jp 昨日のPRで動画の推論コードがマージされたので、触ってみます github.com 開発環境 Windows uv python 3.11 smollm[85a4eb2dd5dd0eb4e116264f1853ae2…

2024-11-26

ローカルでsmollmを動かす

AI

初めに開発環境セットアップデフォルトの質問初めに小さくて精度が高いモデルが出たので、触っていきます。TRL CLIを使ってチャットもできるみたいなのでこちらも触ってみます github.com 開発環境 smollm[1e43f0dcd76261d4317cc2ee7258fe67d151d082] W…

2024-11-24

WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

AI

初めに開発環境セットアップデータの準備 Custom Videoでの推論初めにモーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます github.com 開発環境 Windows11 uv pyhton 3.10 セットアップまずは環境を作っていきます uv venv…

2024-11-24

FFmpegで連番の画像から動画を作成する

開発環境連番画像から動画作成開発環境 Windows11 FFmpeg N-113785-gfe340c3244-20240223 連番画像から動画作成連番の画像があるフォルダで以下を実行 ffmpeg -framerate 30 -i %08d.jpg -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4 オプションにつ…

2024-11-24

WSL2 + dockerの容量削減方法

初めに開発環境方法初めに Windowsでdockerを使った開発を行っていると容量がどんどん増えていきます。定期的に掃除をする必要があるので、やり方のメモです開発環境 Windows11 wsl 方法以下の記事を参考にして、既存のdocker imageを削除 docker syste…

2024-11-23

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

AI

初めに開発環境セットアップモデル・データセットの配置追加学習の実行初めに以前にtext to audioを AudioLDMを使って行いました。 ayousanz.hatenadiary.jp 今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。以…

2024-11-23

AudioLDMでtext to audioを行う

AI

初めに開発環境セットアップ推論 requirements.txt 初めに text to audioがいろいろある中で出てきた AudioLDMというCLAPを使って音声を生成するモデルを触ってみます github.com 開発環境 uv python 3.8 windows 11(powershell) セットアップまずは公式…

2024-11-21

OmniParserをDockerで動かす

AI

初めに開発環境詳細初めに microsoftからスクリーンショットの内容を理解するモデルおよびライブラリが出ているので、これを触っていきます。環境構築のために、docker環境を作っていきます github.com 以下でdocker環境をまとめたリポジトリをあげてい…

2024-11-21

GeminiAPIを使って音声データセットのラベル付けを行う

AI

初めに開発環境準備 GeminiAPIを使ってラベル付けつけ初めに音声のラベル付けをする場合、LLMを使って文字お越しデータから行う or マルチモーダルを使って音声およびテキストからラベル付けをする方法になります。今回は、GeminaiのAPIを使って音声お…

2024-11-19

manga-ocrを動かす

AI

初めに開発環境環境セットアップ推論初めに日本の漫画フォーマットに特化したOCRのライブラリがあるので動かしてみます github.com 開発環境 uv python 3.10 mange-ocr 環境セットアップ公式のままだとエラーになるので、pyproject.toml を変更します …

2024-11-19

Kotoba-Speech v0.1をDockerを使ってローカル環境で推論を行う

AI

初めに開発環境構築時の詳細 FlashAttentionのインストールについて audiocraftのインストール pytorchの古い問題ボリュームマウントを使ったフォルダ共有推論初めにこちら動かしていきます。 github.com 昔にライブラリのverが合わずに諦めていたので…

2024-11-19

boltz(Boltz-1)を使って生体分子相互作用モデリングを行う

AI

初めに開発環境セットアップタンパク質とリガンド（分子）の情報から推論結果備考 clang不足エラー初めに Boltz-1は、タンパク質、RNA、DNA、小分子などの生体分子の3D構造を予測することができます。面白そうなので実際に実行してみます github.com …

2024-11-17

Style-Bert-VITS2(SBV2)でAssertionError: choose a window size 400 that is [2, 251]の対応方法

AI

初めに開発環境ライブラリ ver 原因対応方法初めに以下の学習にて以下のエラーにて前処理が止まることがあります。こちらの対応をしていきます packages/torchaudio/compliance/kaldi.py", line 142, in _get_waveform_and_window_properties assert 2 …

2024-11-12

linuxのscreen環境でスクロールができない時にする対応

開発環境現象対応方法開発環境 Ubuntu 22.04 現象 linuxに仮想ターミナル化するライブラリがありますが、こちらを使用時にスクロールしても上部にあるものがスクロールされないことがあります。対応方法ホームディレクトリにある.screenrcファイルを編…

yousanのメモ

2024-01-01から1年間の記事一覧

マルチステージやwhlなどを使ってdockerのビルドサイズを小さくする

GitHub Actionsで特定のブランチから特定のブランチにアセットの差分のみを取り込むCIを構築する

genagentsを使って文化シミュレーションを行う

wespeakerとxvectorの話者埋め込みモデルを使った日本語話者ダイアライゼーションの評価

talkbank/callhomeの日本語音声をwav形式で保存する

pyannote + whisperで話者ダイアライゼーションを行う

Wespeaker/wespeaker-voxceleb-resnet34-LMで話者ダイアライゼーションを行う

powerset_calibrationを使って話者ダイアライゼーションを行う

nvidia/parakeet-tdt_ctc-0.6b-jaをWindowsで動かす際のAttributeError: module 'signal' has no attribute 'SIGKILL'. Did you mean: 'SIGILL'?の対応

reazonspeech-k2-v2を動かす

S3Tokenizerを動かす

DNSMOSで音声評価を行う

WindowsでFreeze-Omniを動かす

sudachipyを使って文章をひらがなに変換する

WeSpeakerで音声データ内の話者分離および話者数の特定を行う

UnityでDrawLineを使って擬似的にスフィアを描画する

ローカルでsmollmで動画の内容に関する推論を行う

ローカルでsmollmを動かす

WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

FFmpegで連番の画像から動画を作成する

WSL2 + dockerの容量削減方法

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

AudioLDMでtext to audioを行う

OmniParserをDockerで動かす

GeminiAPIを使って音声データセットのラベル付けを行う

manga-ocrを動かす

Kotoba-Speech v0.1をDockerを使ってローカル環境で推論を行う

boltz(Boltz-1)を使って生体分子相互作用モデリングを行う

Style-Bert-VITS2(SBV2)でAssertionError: choose a window size 400 that is [2, 251]の対応方法

linuxのscreen環境でスクロールができない時にする対応