LLM推論ベースのツリーインデックスRAG「PageIndex」でPDF/Markdownから階層構造を抽出する

AI

初めに開発環境環境構築 PDFの処理 Markdownの処理主なオプション初めに github.com PageIndexは、ベクトルDBやチャンキングを使わず、LLMの推論によって階層ツリーインデックスを構築するRAGシステムです。PDF/Markdownから目次のようなツリー構造を自…

2026-01-29

MegaTTS3の英語推論環境をWindowsで構築してGradioから音声合成をする

AI

初めに開発環境重要な制約環境構築実行初めに bytedanceから英語・中国語に対応したTTSモデルが公開されたので動かしてみます github.com 開発環境 Windows uv が利用可能 Python 3.10 重要な制約 WeTextProcessing と pynini は Windows でのビルドが…

2026-01-22

音声とテキストから発話の時間境界付きの Praat TextGrid を生成する「Wav2TextGrid」を英語音声で試してみる

AI

初めにモデル／アーキテクチャ開発環境環境構築実行初めにまだ試験的ですが以下のライブラリが出てきていたので触ってみます github.com 対応言語は英語のみのため、日本語を使いたい場合は自前で学習する必要があります。モデル／アーキテクチャ Wav…

2026-01-22

音楽生成モデルのheartlibで英語・日本語の歌詞付き音楽を生成をする

AI

初めに開発環境環境構築実行初めに以下でOSSで音楽生成モデルが出たので、さわってみます github.com 開発環境 Python 3.10 CUDA 12.x対応GPU UV (Pythonパッケージマネージャー) 環境構築以下の設定をpyproject.tomlに追加（CUDA 12.4 + Flash Attent…

2026-01-15

CosyVoiceのonnxモデルをUnityで動かして音声合成をするときのopset versionについて

AI Unity

初めに開発環境 ONNX Opsetバージョン問題初めに昨日に CosyVoice3をonnxにして pytorchに依存せずに動かしてみました ayousanz.hatenadiary.jp 今回はここで変換をしたonnxをUnityで動かして、UnityだけでCosyVoiceのモデルから推論をしてみたいと思いま…

2026-01-14

LLMベースTTS「CosyVoice3」を完全ONNX化してPyTorchなしで推論する

AI

はじめに成果物 (ONNXモデル/推論スクリプト) CosyVoice3のアーキテクチャ Zero-Shot音声クローニングの仕組み開発環境 ONNXエクスポート生成されたONNXファイル LLMのKVキャッシュ分割 HiFTのFP32必須問題 PyTorchフリー推論の実装依存パッケージ NumPy…

2026-01-12

100言語での音韻変換に対応しているCharsiuG2Pで日本語精度を・英語精度を試す

AI

初めに特徴提供モデル開発環境環境構築精度比較速度測定結果 GPU (RTX 4070 Ti SUPER) 精度比較精度評価（英語）精度評価（日本語）初めに G2Pライブラリの一つであるニューラルG2Pモデル CharsiuG2P で日本語および英語の精度を測ってみます特徴 …

2026-01-12

高速・高品質なゼロショットTTS「ZipVoice」をUnity AI Inference Engineで動かす

AI Unity

はじめに ZipVoiceについてデモ事前調査 Unity AI Inference Engine（旧Sentis）の調査 G2P（Grapheme-to-Phoneme）の選択肢 ISTFT実装の選択肢 ONNXエクスポート ZipVoice側の修正（zipformer.py）エクスポートスクリプト（onnx_export_sentis.py）生成…