2026-04-01から1ヶ月間の記事一覧

TimesFM 2.5を使って東京の気温とVTI株価をゼロショット予測する

AI

初めに 開発環境 環境構築 Python バージョンの注意 仮想環境の作成 パッケージのインストール インストールの確認 データの取得 東京の気温(meteostat) VTI株価(yfinance) モデルの読み込みとコンパイル 重みのダウンロード ForecastConfigによるコンパ…

LongCat-AudioDiTの3.5Bモデルを使ってゼロショットTTSの推論をしてみる

AI

初めに 開発環境 環境構築 リポジトリのクローン Python バージョンの固定 pyproject.toml の作成 依存関係のインストール 3.5B モデルを動かすための工夫 VRAM の問題 inference.py の修正 Windows の cp932 エンコーディング問題 推論の実行 中国語テキス…

WebUtauをローカル構築して闇音レンリで日本語歌声合成を試してみた

AI

初めに 開発環境 WebUtauの全体構成 環境構築 リポジトリのクローン フロントエンドのセットアップ バックエンドのビルド ボイスバンクとボコーダーのダウンロード ボイスバンクディレクトリの準備 闇音レンリ DiffSingerのダウンロード NSF-HiFiGANボコーダ…

piper-plusの.NET版で多言語音素変換を実装する

初めに 開発環境 環境構築 プロジェクトの作成 パッケージのインストール 実行 日本語の音素変換 英語の音素変換 マルチリンガル音素変換 韻律情報付きの音素変換 APIアーキテクチャ IPhonemizer インターフェース Phonemizerの構築パターン 韻律情報の詳細 …

piper-plusのWASM版でブラウザ上の日本語TTSを実現する

初めに 開発環境 環境構築 プロジェクトの作成 パッケージのインストール package.jsonの設定 Vite設定ファイルの作成(vite.config.js) モデルの準備 実装 最小限のHTML(index.html) JavaScript(main.js) 開発サーバーの起動 実行結果 APIの詳細 Piper…

piper-plus v1.11.0のGo SDKでTTS APIサーバーを構築する

初めに 開発環境 アーキテクチャ概要 環境構築 ONNX Runtimeの準備 CLIのビルド モデルのダウンロード Go APIの基本的な使い方 HTTP APIサーバー CLIからの起動 Goプログラムからの起動 エンドポイント curlでの動作確認 VoicePool: 並行セッション管理 スト…

piper-plus-g2p: TTS不要で使えるMITライセンスの多言語G2Pパッケージ

初めに 開発環境 環境構築 全言語をインストールする場合 日本語のみの場合 個別言語のextras 基本的な使い方 言語ごとのPhonemizer取得 各言語の出力例 日本語の韻律情報(ProsodyInfo) PiperEncoderでphoneme_idsに変換(オプション) 多言語テキストの自…

piper-plus v1.11.0のRust SDKで高速TTSを実現する

初めに 開発環境 環境構築 CLIのインストール モデルのダウンロード CLIの基本的な使い方 テキストから音声合成 パラメータの調整 デバイス指定 raw PCM出力 バッチ処理 8言語G2P 対応言語とfeature flags G2P APIの使い方 Rust APIでの合成 ストリーミング…

piper-plusのDockerイメージでTTSのWebUIを提供する

初めに 開発環境 Dockerイメージの構成 Gradio WebUIの起動 リポジトリのクローンとビルド コンテナの起動(モデル自動ダウンロード) ブラウザでアクセス 手動でモデルを配置する場合 docker-composeによる起動 複数モデルの利用 所感 初めに 今回は、piper…

piper-plusの日本語TTSをOpenJTalkのアクセントラベルで改善してみた

初めに 開発環境 OpenJTalkのフルコンテキストラベルとは 韻律記号への変換 「N」の文脈依存変異 環境構築 前処理でのラベル適用 espeak-ng(ラベルなし)での前処理 OpenJTalk(ラベルあり)での前処理 学習への韻律情報注入 所感 初めに 日本語のTTSでは、…

piper-plusのPython SDKを使って日本語TTSの推論をしてみる

初めに 開発環境 環境構築 プロジェクトの作成 インストール 日本語モデルのダウンロード 基本的な推論 Pythonコードからの推論 GPU推論 CLIからの推論 ストリーミング合成 カスタム辞書と直接フォネム入力 所感 初めに 今回は、自分が開発しているTTSライブ…