2026-01-01から1ヶ月間の記事一覧
初めに 開発環境 環境構築 PDFの処理 Markdownの処理 主なオプション 初めに github.com PageIndexは、ベクトルDBやチャンキングを使わず、LLMの推論によって階層ツリーインデックスを構築するRAGシステムです。PDF/Markdownから目次のようなツリー構造を自…
初めに 開発環境 重要な制約 環境構築 実行 初めに bytedanceから英語・中国語に対応したTTSモデルが公開されたので動かしてみます github.com 開発環境 Windows uv が利用可能 Python 3.10 重要な制約 WeTextProcessing と pynini は Windows でのビルドが…
初めに モデル/アーキテクチャ 開発環境 環境構築 実行 初めに まだ試験的ですが以下のライブラリが出てきていたので触ってみます github.com 対応言語は英語のみのため、日本語を使いたい場合は自前で学習する必要があります。 モデル/アーキテクチャ Wav…
初めに 開発環境 環境構築 実行 初めに 以下でOSSで音楽生成モデルが出たので、さわってみます github.com 開発環境 Python 3.10 CUDA 12.x対応GPU UV (Pythonパッケージマネージャー) 環境構築 以下の設定をpyproject.tomlに追加(CUDA 12.4 + Flash Attent…
初めに 開発環境 ONNX Opsetバージョン問題 初めに 昨日に CosyVoice3をonnxにして pytorchに依存せずに動かしてみました ayousanz.hatenadiary.jp 今回はここで変換をしたonnxをUnityで動かして、UnityだけでCosyVoiceのモデルから推論をしてみたいと思いま…
はじめに 成果物 (ONNXモデル/推論スクリプト) CosyVoice3のアーキテクチャ Zero-Shot音声クローニングの仕組み 開発環境 ONNXエクスポート 生成されたONNXファイル LLMのKVキャッシュ分割 HiFTのFP32必須問題 PyTorchフリー推論の実装 依存パッケージ NumPy…
初めに 特徴 提供モデル 開発環境 環境構築 精度比較 速度測定結果 GPU (RTX 4070 Ti SUPER) 精度比較 精度評価(英語) 精度評価(日本語) 初めに G2Pライブラリの一つであるニューラルG2Pモデル CharsiuG2P で日本語および英語の精度を測ってみます 特徴 …
はじめに ZipVoiceについて デモ 事前調査 Unity AI Inference Engine(旧Sentis)の調査 G2P(Grapheme-to-Phoneme)の選択肢 ISTFT実装の選択肢 ONNXエクスポート ZipVoice側の修正(zipformer.py) エクスポートスクリプト(onnx_export_sentis.py) 生成…
はじめに 検証環境 ボコーダーとは Flow2GANとは Flow2GANの統合 uv addでの依存関係追加 ボコーダーパッケージの作成 推論スクリプトへの引数追加 ボコーダーの処理時間の比較 はじめに ZipVoiceは、Flow Matchingを使った高速・高品質なゼロショットText-t…