2026-01-01から1ヶ月間の記事一覧

LLM推論ベースのツリーインデックスRAG「PageIndex」でPDF/Markdownから階層構造を抽出する

AI

初めに 開発環境 環境構築 PDFの処理 Markdownの処理 主なオプション 初めに github.com PageIndexは、ベクトルDBやチャンキングを使わず、LLMの推論によって階層ツリーインデックスを構築するRAGシステムです。PDF/Markdownから目次のようなツリー構造を自…

MegaTTS3の英語推論環境をWindowsで構築してGradioから音声合成をする

AI

初めに 開発環境 重要な制約 環境構築 実行 初めに bytedanceから英語・中国語に対応したTTSモデルが公開されたので動かしてみます github.com 開発環境 Windows uv が利用可能 Python 3.10 重要な制約 WeTextProcessing と pynini は Windows でのビルドが…

音声とテキストから発話の時間境界付きの Praat TextGrid を生成する「Wav2TextGrid」を英語音声で試してみる

AI

初めに モデル/アーキテクチャ 開発環境 環境構築 実行 初めに まだ試験的ですが以下のライブラリが出てきていたので触ってみます github.com 対応言語は英語のみのため、日本語を使いたい場合は自前で学習する必要があります。 モデル/アーキテクチャ Wav…

音楽生成モデルのheartlibで英語・日本語の歌詞付き音楽を生成をする

AI

初めに 開発環境 環境構築 実行 初めに 以下でOSSで音楽生成モデルが出たので、さわってみます github.com 開発環境 Python 3.10 CUDA 12.x対応GPU UV (Pythonパッケージマネージャー) 環境構築 以下の設定をpyproject.tomlに追加(CUDA 12.4 + Flash Attent…

CosyVoiceのonnxモデルをUnityで動かして音声合成をするときのopset versionについて

初めに 開発環境 ONNX Opsetバージョン問題 初めに 昨日に CosyVoice3をonnxにして pytorchに依存せずに動かしてみました ayousanz.hatenadiary.jp 今回はここで変換をしたonnxをUnityで動かして、UnityだけでCosyVoiceのモデルから推論をしてみたいと思いま…

LLMベースTTS「CosyVoice3」を完全ONNX化してPyTorchなしで推論する

AI

はじめに 成果物 (ONNXモデル/推論スクリプト) CosyVoice3のアーキテクチャ Zero-Shot音声クローニングの仕組み 開発環境 ONNXエクスポート 生成されたONNXファイル LLMのKVキャッシュ分割 HiFTのFP32必須問題 PyTorchフリー推論の実装 依存パッケージ NumPy…

100言語での音韻変換に対応しているCharsiuG2Pで日本語精度を・英語精度を試す

AI

初めに 特徴 提供モデル 開発環境 環境構築 精度比較 速度測定結果 GPU (RTX 4070 Ti SUPER) 精度比較 精度評価(英語) 精度評価(日本語) 初めに G2Pライブラリの一つであるニューラルG2Pモデル CharsiuG2P で日本語および英語の精度を測ってみます 特徴 …

高速・高品質なゼロショットTTS「ZipVoice」をUnity AI Inference Engineで動かす

はじめに ZipVoiceについて デモ 事前調査 Unity AI Inference Engine(旧Sentis)の調査 G2P(Grapheme-to-Phoneme)の選択肢 ISTFT実装の選択肢 ONNXエクスポート ZipVoice側の修正(zipformer.py) エクスポートスクリプト(onnx_export_sentis.py) 生成…

ZipVoiceのボコーダーをFlow2GANに置き換えて高速化できるか検証する

AI

はじめに 検証環境 ボコーダーとは Flow2GANとは Flow2GANの統合 uv addでの依存関係追加 ボコーダーパッケージの作成 推論スクリプトへの引数追加 ボコーダーの処理時間の比較 はじめに ZipVoiceは、Flow Matchingを使った高速・高品質なゼロショットText-t…