AI
初めに 開発環境 環境構築 実行 初めに リアルタイム音声アプリケーション向けのオンデバイス音声認識(STT)ライブラリでマルチプラットフォームに対応している Moonshine Voiceを触ってみます github.com 開発環境 Windows 11 uv 0.9.x cuda 13.0 環境構築 …
初めに 開発環境 環境構築 1. Detectron2をクローンしてC++拡張を無効化 2. pyproject.toml の detectron2 ソースをローカルパスに変更 3. 依存パッケージをインストール CUDA バージョンについて 実行 初めに 以下のような動画の軽量なセグメンテーションの…
初めに 開発環境 環境構築 シミュレーション実行 仕組み シミュレーション結果 マクロ経済指標 失業率 資産分布 結果からわかること 初めに EconAgentは、LLMを経済エージェントの意思決定エンジンとして使い、マクロ経済活動をシミュレートするフレームワー…
初めに 開発環境 実験設計 シナリオ 専門家のリング構造 エージェントの行動 実験条件 環境構築 実行 シミュレーション実行 実験結果 結果のポイント 可視化ダッシュボード まとめ 参考 初めに 大規模社会シミュレーションを行うフレームワーク Agent-Kernel…
初めに 開発環境 環境構築 実行 初めに 音声から3Dフェイシャルアニメーションを生成する統合ニューラルネットワークモデル「UniTalker」を実行してみます uvに統合 + ドキュメントの日本語対応したforkリポジトリは以下です github.com サンプル音声を実行…
初めに 開発環境 環境構築 データの準備 LibriSpeech dev-clean のダウンロード サブセットの作成 実行 パターン1: LibriSpeech 1272 → つくよみちゃん(英語男性 → 日本語女性) パターン2: つくよみちゃん → LibriSpeech 1272(日本語女性 → 英語男性) パ…
初めに 結果 開発環境 環境構築 テスト用動画のダウンロード デモスクリプトの解説 引数 検出 追跡 可視化 ソースコード全文 実行 初めに trackers は、Roboflow が提供するマルチオブジェクト追跡(MOT)アルゴリズムのクリーンルーム実装ライブラリです。A…
初めに 開発環境 環境構築 実行 初めに MaAIはリアルタイム・連続的な非言語行動生成ソフトウェアです。音声対話システムやロボット向けに、ターンテイキング予測・相槌予測・うなずき予測・VADされている. github.com 開発環境 Windows 10/11 Python 3.10以…
初めに 開発環境 環境構築 PDFの処理 Markdownの処理 主なオプション 初めに github.com PageIndexは、ベクトルDBやチャンキングを使わず、LLMの推論によって階層ツリーインデックスを構築するRAGシステムです。PDF/Markdownから目次のようなツリー構造を自…
初めに 開発環境 重要な制約 環境構築 実行 初めに bytedanceから英語・中国語に対応したTTSモデルが公開されたので動かしてみます github.com 開発環境 Windows uv が利用可能 Python 3.10 重要な制約 WeTextProcessing と pynini は Windows でのビルドが…
初めに モデル/アーキテクチャ 開発環境 環境構築 実行 初めに まだ試験的ですが以下のライブラリが出てきていたので触ってみます github.com 対応言語は英語のみのため、日本語を使いたい場合は自前で学習する必要があります。 モデル/アーキテクチャ Wav…
初めに 開発環境 環境構築 実行 初めに 以下でOSSで音楽生成モデルが出たので、さわってみます github.com 開発環境 Python 3.10 CUDA 12.x対応GPU UV (Pythonパッケージマネージャー) 環境構築 以下の設定をpyproject.tomlに追加(CUDA 12.4 + Flash Attent…
初めに 開発環境 ONNX Opsetバージョン問題 初めに 昨日に CosyVoice3をonnxにして pytorchに依存せずに動かしてみました ayousanz.hatenadiary.jp 今回はここで変換をしたonnxをUnityで動かして、UnityだけでCosyVoiceのモデルから推論をしてみたいと思いま…
はじめに 成果物 (ONNXモデル/推論スクリプト) CosyVoice3のアーキテクチャ Zero-Shot音声クローニングの仕組み 開発環境 ONNXエクスポート 生成されたONNXファイル LLMのKVキャッシュ分割 HiFTのFP32必須問題 PyTorchフリー推論の実装 依存パッケージ NumPy…
初めに 特徴 提供モデル 開発環境 環境構築 精度比較 速度測定結果 GPU (RTX 4070 Ti SUPER) 精度比較 精度評価(英語) 精度評価(日本語) 初めに G2Pライブラリの一つであるニューラルG2Pモデル CharsiuG2P で日本語および英語の精度を測ってみます 特徴 …
はじめに ZipVoiceについて デモ 事前調査 Unity AI Inference Engine(旧Sentis)の調査 G2P(Grapheme-to-Phoneme)の選択肢 ISTFT実装の選択肢 ONNXエクスポート ZipVoice側の修正(zipformer.py) エクスポートスクリプト(onnx_export_sentis.py) 生成…
はじめに 検証環境 ボコーダーとは Flow2GANとは Flow2GANの統合 uv addでの依存関係追加 ボコーダーパッケージの作成 推論スクリプトへの引数追加 ボコーダーの処理時間の比較 はじめに ZipVoiceは、Flow Matchingを使った高速・高品質なゼロショットText-t…
初めに 日本語対応のために行ったこと 開発環境 学習環境構築 学習 推論 初めに この前にZipVoiceを動かして英語の生成をしてみました。しかし日本語の対応がされていなかったので求めているユースケースとは異なります。 ayousanz.hatenadiary.jp 今回は日…
初めに 開発環境 環境構築 実行 初めに Sunoなど多くの楽曲生成サービスが出ていますが、ローカルで同じくらいの精度のものが出てきたということで触ってみます ライセンスが学術目的のみ使用可能で商用利用は禁止されているため、注意が必要です。 対応言語…
初めに 開発環境 環境構築 実行 初めに 高速推論が可能なZero ShotTTSを触ってみます github.com 処理のフローとしては以下のようになっています テキスト → トークナイザ → Text Encoder → FM Decoder → Vocoder → 波形(24kHz) 開発環境 Windows 11 uv 0.9.…
初めに 開発環境 環境構築 実行 初めに 以下の記事にある「Sarashina2.2-Vision-3B」を動かしていきます www.sbintuitions.co.jp 開発環境 Windows 11 cuda 13.0 uv 環境構築 uvを使って環境構築をします。pyproject.tomlを作成します [project] name = "sar…
初めに 開発環境 環境構築 推論 初めに 高速に推論ができるらしい MiraTTSを触ってみます。 uvでWindowsに対応したリポジトリは以下で公開をしています github.com 開発環境 項目 バージョン OS Windows 11 CUDA 12.x (v13.0も動作確認済み) Python 3.11 パ…
初めに 分析対象の動画 分析方法 分析結果 フィラー(つなぎ言葉)分析 台本生成 初めに この前に ろてんじんさん とお話しをしていて、配信者における雑談の周期性が以下のような項目であるのではないかという話になり、自分のほうでも動画を使って実際に分…
初めに 開発環境 環境構築 実行 初めに FACodec(Factorized Audio Codec)は、NaturalSpeech 3の中核コンポーネントです。 オーディオ仕様は以下になっています : 16kHz、ホップサイズ200サンプル また以下の制限があります。 音声は最大5秒に制限(長い音…
初めに 開発環境 環境構築 推論 初めに 最近出てきた以下のTTSを触ってみます github.com アーキテクチャは以下のようになっています LLM (Llama): テキスト → 音声トークン列を生成 Flow Matching: 音声トークン → メルスペクトログラム → ボコーダーで波形…
初めに 開発環境 環境構築 チェックポイントのダウンロード 実行 デモ動画 初めに 動画生成モデルで高速に生成できるものが出てきたので触ってみます TurboDiffusionAccelerating Video Diffusion Models by 100–205 Times pic.twitter.com/66ZYtT20hy— AK (…
初めに 開発環境 環境構築 推論の実行 初めに Orpheus TTSをベースに開発がされたLLMベースのTTSになっています。 github.com Orpheus TTSから以下のような変更点があります モデルサイズの大幅な縮小 : Llama-3.2-3b → LFM2-350M 推論エンジンの多様化 : 以…
初めに 開発環境 環境構築 実行 初めに SAM-Audio(Segment Anything Model for Audio)は、Meta(Facebook Research)が開発した音声分離のためのファウンデーションモデルです。テキスト、視覚、または時間範囲のプロンプトを使用して、複雑な音声ミックス…
初めに アーキテクチャと課題 開発環境 環境構築 モデルのダウンロード 実行 初めに 前回 数年前のTTSの tacotron2を動かしました。今回はtactron2の課題の解決した FastSpeech2を実際に動かしていきます ayousanz.hatenadiary.jp FastSpeech2で解決したもの…
初めに tacotron2の構成と課題 開発環境 環境構築 実行 初めに いまさらですが、tacotron2を触ってみます 以下に現在の環境に合わせてuvで環境構築をしたRepositoryを作成しました github.com tacotron2の構成と課題 自己回帰 + Attentionのアーキテクチャに…