2024-12-01から1ヶ月間の記事一覧
初めに 背景 やりたいこと 実現方法 Actionsでの実装 Actionsの設定 初めに 今回は アセット環境における ブランチ間のアセット差分取り込みCIについて書いていきます。 今回は自動で以下のようなPRまでを自動で作ってくれるものを想定しています。 デモとし…
初めに 開発環境 セットアップ 一人のエージェントにユーザー質問をする 記憶システムを追加 複数人のエージェントに対して質問をする 数年単位の複数エージェントに対しての文化シミュレーション 初めに LLM・LLM活用アドカレ 18日目です! genagentsは、生…
初めに 事前調査 開発環境 評価データ 対象のモデル 評価結果 評価方法 wespeaker xvector_jtubespeech 初めに 音声データを文字お越しをする際に、複数人の音声が入っている場合に 「誰がいつ話したのか」を推定する技術として 話者ダイアライゼーションが…
開発環境 セットアップ 実行 開発環境 python 3.9 uv セットアップ ライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行 以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…
初めに 開発環境 セットアップ 実行 初めに 今回は定番のpyanonoteとwhisperで話者ダイアライゼーションを行ってみます 以下で記事のサンプルリポジトリを公開しています github.com 過去にはほかのライブラリでも試しているので、ほかにどのようなライブラ…
初めに 開発環境 セットアップ CLIから実行 Pythonのコードで実行 備考 初めに wespeakerで話者ダイアライゼーションを行ってみます。 モデルは以下です huggingface.co 以下に記事の内容のRepositoryを公開しています github.com 開発環境 windows11 python…
初めに 開発環境 セットアップ 話者ダイアライゼーションを実行 初めに powerset_calibrationを使って音声内の話者ダイアライゼーションを行ってみます。論文によりデータセットには日本語が含まれていないため、日本語の音声に使う場合は自分で学習を行う必…
初めに 開発環境 原因 対応方法 備考 初めに NVIDIAが公開している日本語音声向けの音声認識モデル nvidia/parakeet-tdt_ctc-0.6b-jaを Windowsで動かす際に以下のエラーが出た多ため、対応方法を記載します packages\nemo\collections\asr\models\configs\a…
初めに 開発環境 セットアップ 文字お越しの実行 初めに reazon-researchが新しい音声認識モデルを公開されていたので触ってみます ReazonSpeech v2.1をリリースしました!v2.1で追加した新しい日本語ASRモデル、ReazonSpeech-k2-v2はONNXフォーマットで提供…
初めに 開発環境 セットアップ 実行 初めに CosyVoiceの教師あり音声トークナイザーに関するコードが出ていなかったため issue、以下のRepositoryにて再現実装が行われました。こちらを動かしていきます github.com 以下でライブラリのverを固定したReposito…
初めに 開発環境 DNSMOSについて 環境構築 音声ファイルの評価 初めに AI声づくり技術研究会 アドカレ 12日目です。 今回は 音声合成におけるデータセット作成の一つの重要な要素である データセットの音声評価について 比較的新しめの評価手法およびライブ…
初めに 開発環境 セットアップ 音声ファイルから推論 リアルタイムのインタラクティブDemoを動かす 初めに speech to speechのライブラリの Freeze-Omniを動かしていきます。これは従来のような speech to text(STT) → text to text(LLM) → text to speech(S…
初めに 開発環境 セットアップ ひらながに変換 辞書の変更 初めに TTSの学習のひとつで、文字列をすべてひらがなにしたい場合があります。その際に簡単に使える sudachiを使って処理をしてみます 以下にサンプルリポジトリを公開しています github.com 開発…
初めに 開発環境 セットアップ 話者分離の実行 初めに 最近公開された WeSpeakerを使って 音声データでいろいろ行っていきます。今回は、音声データ内の話者分離および話者数の特定を行います github.com 以下にてサンプルリポジトリを公開しています https:…
初めに Demo 開発環境 実装 初めに Unityでrayの当たり判定でデバッグをする際に Gizmoや Drawlineを使って行うことが多々あります。今回は Gizmoが使えない(MonoBehaviourを継承していない or 更新関数を OnDrawGizmosまで伝播できない)場合の方法として Dr…