AI

リアルタイム音声アプリケーション向けのオンデバイス音声認識(STT)ライブラリでマルチプラットフォームに対応している Moonshine VoiceをWindowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに リアルタイム音声アプリケーション向けのオンデバイス音声認識(STT)ライブラリでマルチプラットフォームに対応している Moonshine Voiceを触ってみます github.com 開発環境 Windows 11 uv 0.9.x cuda 13.0 環境構築 …

動画セグメンテーションの軽量なエンコーダのみのViTモデルをWindowsで動かす

AI

初めに 開発環境 環境構築 1. Detectron2をクローンしてC++拡張を無効化 2. pyproject.toml の detectron2 ソースをローカルパスに変更 3. 依存パッケージをインストール CUDA バージョンについて 実行 初めに 以下のような動画の軽量なセグメンテーションの…

ACL 2024論文「EconAgent」でGPT-4.1-miniによる100人規模のマクロ経済シミュレーションを動かす

AI

初めに 開発環境 環境構築 シミュレーション実行 仕組み シミュレーション結果 マクロ経済指標 失業率 資産分布 結果からわかること 初めに EconAgentは、LLMを経済エージェントの意思決定エンジンとして使い、マクロ経済活動をシミュレートするフレームワー…

大規模社会シミュレーションを行うマルチエージェントシステム「Agent-Kernel」を用いて災害対応シミュレーションで多様性がもたらす推定を行う

AI

初めに 開発環境 実験設計 シナリオ 専門家のリング構造 エージェントの行動 実験条件 環境構築 実行 シミュレーション実行 実験結果 結果のポイント 可視化ダッシュボード まとめ 参考 初めに 大規模社会シミュレーションを行うフレームワーク Agent-Kernel…

音声から3Dフェイシャルアニメーションを生成する「UniTalker」を実行する

AI

初めに 開発環境 環境構築 実行 初めに 音声から3Dフェイシャルアニメーションを生成する統合ニューラルネットワークモデル「UniTalker」を実行してみます uvに統合 + ドキュメントの日本語対応したforkリポジトリは以下です github.com サンプル音声を実行…

自己教師あり音声特徴量に対する線形回帰のみで音声変換を行うLinearVCを動かす

AI

初めに 開発環境 環境構築 データの準備 LibriSpeech dev-clean のダウンロード サブセットの作成 実行 パターン1: LibriSpeech 1272 → つくよみちゃん(英語男性 → 日本語女性) パターン2: つくよみちゃん → LibriSpeech 1272(日本語女性 → 英語男性) パ…

Roboflow の trackers ライブラリで YOLO + ByteTrack による動画マルチオブジェクト追跡をする

AI

初めに 結果 開発環境 環境構築 テスト用動画のダウンロード デモスクリプトの解説 引数 検出 追跡 可視化 ソースコード全文 実行 初めに trackers は、Roboflow が提供するマルチオブジェクト追跡(MOT)アルゴリズムのクリーンルーム実装ライブラリです。A…

MaAI(間合い)は、リアルタイム・軽量な非言語行動生成ソフトウェア「MaAI」を使って、日本語音声ファイルからターンテイキング予測・相槌予測・うなずき予測を行う

AI

初めに 開発環境 環境構築 実行 初めに MaAIはリアルタイム・連続的な非言語行動生成ソフトウェアです。音声対話システムやロボット向けに、ターンテイキング予測・相槌予測・うなずき予測・VADされている. github.com 開発環境 Windows 10/11 Python 3.10以…

LLM推論ベースのツリーインデックスRAG「PageIndex」でPDF/Markdownから階層構造を抽出する

AI

初めに 開発環境 環境構築 PDFの処理 Markdownの処理 主なオプション 初めに github.com PageIndexは、ベクトルDBやチャンキングを使わず、LLMの推論によって階層ツリーインデックスを構築するRAGシステムです。PDF/Markdownから目次のようなツリー構造を自…

MegaTTS3の英語推論環境をWindowsで構築してGradioから音声合成をする

AI

初めに 開発環境 重要な制約 環境構築 実行 初めに bytedanceから英語・中国語に対応したTTSモデルが公開されたので動かしてみます github.com 開発環境 Windows uv が利用可能 Python 3.10 重要な制約 WeTextProcessing と pynini は Windows でのビルドが…

音声とテキストから発話の時間境界付きの Praat TextGrid を生成する「Wav2TextGrid」を英語音声で試してみる

AI

初めに モデル/アーキテクチャ 開発環境 環境構築 実行 初めに まだ試験的ですが以下のライブラリが出てきていたので触ってみます github.com 対応言語は英語のみのため、日本語を使いたい場合は自前で学習する必要があります。 モデル/アーキテクチャ Wav…

音楽生成モデルのheartlibで英語・日本語の歌詞付き音楽を生成をする

AI

初めに 開発環境 環境構築 実行 初めに 以下でOSSで音楽生成モデルが出たので、さわってみます github.com 開発環境 Python 3.10 CUDA 12.x対応GPU UV (Pythonパッケージマネージャー) 環境構築 以下の設定をpyproject.tomlに追加(CUDA 12.4 + Flash Attent…

CosyVoiceのonnxモデルをUnityで動かして音声合成をするときのopset versionについて

初めに 開発環境 ONNX Opsetバージョン問題 初めに 昨日に CosyVoice3をonnxにして pytorchに依存せずに動かしてみました ayousanz.hatenadiary.jp 今回はここで変換をしたonnxをUnityで動かして、UnityだけでCosyVoiceのモデルから推論をしてみたいと思いま…

LLMベースTTS「CosyVoice3」を完全ONNX化してPyTorchなしで推論する

AI

はじめに 成果物 (ONNXモデル/推論スクリプト) CosyVoice3のアーキテクチャ Zero-Shot音声クローニングの仕組み 開発環境 ONNXエクスポート 生成されたONNXファイル LLMのKVキャッシュ分割 HiFTのFP32必須問題 PyTorchフリー推論の実装 依存パッケージ NumPy…

100言語での音韻変換に対応しているCharsiuG2Pで日本語精度を・英語精度を試す

AI

初めに 特徴 提供モデル 開発環境 環境構築 精度比較 速度測定結果 GPU (RTX 4070 Ti SUPER) 精度比較 精度評価(英語) 精度評価(日本語) 初めに G2Pライブラリの一つであるニューラルG2Pモデル CharsiuG2P で日本語および英語の精度を測ってみます 特徴 …

高速・高品質なゼロショットTTS「ZipVoice」をUnity AI Inference Engineで動かす

はじめに ZipVoiceについて デモ 事前調査 Unity AI Inference Engine(旧Sentis)の調査 G2P(Grapheme-to-Phoneme)の選択肢 ISTFT実装の選択肢 ONNXエクスポート ZipVoice側の修正(zipformer.py) エクスポートスクリプト(onnx_export_sentis.py) 生成…

ZipVoiceのボコーダーをFlow2GANに置き換えて高速化できるか検証する

AI

はじめに 検証環境 ボコーダーとは Flow2GANとは Flow2GANの統合 uv addでの依存関係追加 ボコーダーパッケージの作成 推論スクリプトへの引数追加 ボコーダーの処理時間の比較 はじめに ZipVoiceは、Flow Matchingを使った高速・高品質なゼロショットText-t…

Flow matchingを用いた高速・高品質なゼロショットTTS「ZipVoice」を日本語対応して学習・推論をする

AI

初めに 日本語対応のために行ったこと 開発環境 学習環境構築 学習 推論 初めに この前にZipVoiceを動かして英語の生成をしてみました。しかし日本語の対応がされていなかったので求めているユースケースとは異なります。 ayousanz.hatenadiary.jp 今回は日…

短い参照音声 + 歌詞から楽曲を生成できる楽曲生成AIフレームワーク「SongBloom」を動かす

AI

初めに 開発環境 環境構築 実行 初めに Sunoなど多くの楽曲生成サービスが出ていますが、ローカルで同じくらいの精度のものが出てきたということで触ってみます ライセンスが学術目的のみ使用可能で商用利用は禁止されているため、注意が必要です。 対応言語…

Flow Matchingを用いた高速・高品質なゼロショットTTS「ZipVoice」を動かす

AI

初めに 開発環境 環境構築 実行 初めに 高速推論が可能なZero ShotTTSを触ってみます github.com 処理のフローとしては以下のようになっています テキスト → トークナイザ → Text Encoder → FM Decoder → Vocoder → 波形(24kHz) 開発環境 Windows 11 uv 0.9.…

日本語特化の視覚言語モデル「sarashina2.2-vision-3b」を動かす

AI

初めに 開発環境 環境構築 実行 初めに 以下の記事にある「Sarashina2.2-Vision-3B」を動かしていきます www.sbintuitions.co.jp 開発環境 Windows 11 cuda 13.0 uv 環境構築 uvを使って環境構築をします。pyproject.tomlを作成します [project] name = "sar…

LMDeployによる最適化で高速になった「MiraTTS」をWindowsで推論(測度計測)する

AI

初めに 開発環境 環境構築 推論 初めに 高速に推論ができるらしい MiraTTSを触ってみます。 uvでWindowsに対応したリポジトリは以下で公開をしています github.com 開発環境 項目 バージョン OS Windows 11 CUDA 12.x (v13.0も動作確認済み) Python 3.11 パ…

VTuberの雑談配信の周期性およびLLMによる雑談配信の台本の再現

AI

初めに 分析対象の動画 分析方法 分析結果 フィラー(つなぎ言葉)分析 台本生成 初めに この前に ろてんじんさん とお話しをしていて、配信者における雑談の周期性が以下のような項目であるのではないかという話になり、自分のほうでも動画を使って実際に分…

NaturalSpeech 3の中核コンポーネント「FACodec(Factorized Audio Codec)」を使って参照ボイスからVoice Conversion を行う

AI

初めに 開発環境 環境構築 実行 初めに FACodec(Factorized Audio Codec)は、NaturalSpeech 3の中核コンポーネントです。 オーディオ仕様は以下になっています : 16kHz、ホップサイズ200サンプル また以下の制限があります。 音声は最大5秒に制限(長い音…

多報酬強化学習による制御可能で感情表現豊かなゼロショットTTS「GLM-TTS」をWindows + Dockerで動かす

AI

初めに 開発環境 環境構築 推論 初めに 最近出てきた以下のTTSを触ってみます github.com アーキテクチャは以下のようになっています LLM (Llama): テキスト → 音声トークン列を生成 Flow Matching: 音声トークン → メルスペクトログラム → ボコーダーで波形…

拡散ベースの動画生成を100〜200倍高速化するフレームワーク「TurboDiffusion」をWindowsで動かす

AI

初めに 開発環境 環境構築 チェックポイントのダウンロード 実行 デモ動画 初めに 動画生成モデルで高速に生成できるものが出てきたので触ってみます TurboDiffusionAccelerating Video Diffusion Models by 100–205 Times pic.twitter.com/66ZYtT20hy— AK (…

軽量でボイスクローニング可能なTTS「VyvoTTS」をWindows + uvで動かす

AI

初めに 開発環境 環境構築 推論の実行 初めに Orpheus TTSをベースに開発がされたLLMベースのTTSになっています。 github.com Orpheus TTSから以下のような変更点があります モデルサイズの大幅な縮小 : Llama-3.2-3b → LFM2-350M 推論エンジンの多様化 : 以…

テキスト・視覚・時間範囲のプロンプトを使用して音声から特定の音を分離する「sam-audio」をuv + Windowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに SAM-Audio(Segment Anything Model for Audio)は、Meta(Facebook Research)が開発した音声分離のためのファウンデーションモデルです。テキスト、視覚、または時間範囲のプロンプトを使用して、複雑な音声ミックス…

FastSpeech2をuv + Windowsで動かす

AI

初めに アーキテクチャと課題 開発環境 環境構築 モデルのダウンロード 実行 初めに 前回 数年前のTTSの tacotron2を動かしました。今回はtactron2の課題の解決した FastSpeech2を実際に動かしていきます ayousanz.hatenadiary.jp FastSpeech2で解決したもの…

tacotron2をWindowsで動かす

AI

初めに tacotron2の構成と課題 開発環境 環境構築 実行 初めに いまさらですが、tacotron2を触ってみます 以下に現在の環境に合わせてuvで環境構築をしたRepositoryを作成しました github.com tacotron2の構成と課題 自己回帰 + Attentionのアーキテクチャに…