2026-04-01から1ヶ月間の記事一覧
初めに 開発環境 環境構築 Python バージョンの注意 仮想環境の作成 パッケージのインストール インストールの確認 データの取得 東京の気温(meteostat) VTI株価(yfinance) モデルの読み込みとコンパイル 重みのダウンロード ForecastConfigによるコンパ…
初めに 開発環境 環境構築 リポジトリのクローン Python バージョンの固定 pyproject.toml の作成 依存関係のインストール 3.5B モデルを動かすための工夫 VRAM の問題 inference.py の修正 Windows の cp932 エンコーディング問題 推論の実行 中国語テキス…
初めに 開発環境 WebUtauの全体構成 環境構築 リポジトリのクローン フロントエンドのセットアップ バックエンドのビルド ボイスバンクとボコーダーのダウンロード ボイスバンクディレクトリの準備 闇音レンリ DiffSingerのダウンロード NSF-HiFiGANボコーダ…
初めに 開発環境 環境構築 プロジェクトの作成 パッケージのインストール 実行 日本語の音素変換 英語の音素変換 マルチリンガル音素変換 韻律情報付きの音素変換 APIアーキテクチャ IPhonemizer インターフェース Phonemizerの構築パターン 韻律情報の詳細 …
初めに 開発環境 環境構築 プロジェクトの作成 パッケージのインストール package.jsonの設定 Vite設定ファイルの作成(vite.config.js) モデルの準備 実装 最小限のHTML(index.html) JavaScript(main.js) 開発サーバーの起動 実行結果 APIの詳細 Piper…
初めに 開発環境 アーキテクチャ概要 環境構築 ONNX Runtimeの準備 CLIのビルド モデルのダウンロード Go APIの基本的な使い方 HTTP APIサーバー CLIからの起動 Goプログラムからの起動 エンドポイント curlでの動作確認 VoicePool: 並行セッション管理 スト…
初めに 開発環境 環境構築 全言語をインストールする場合 日本語のみの場合 個別言語のextras 基本的な使い方 言語ごとのPhonemizer取得 各言語の出力例 日本語の韻律情報(ProsodyInfo) PiperEncoderでphoneme_idsに変換(オプション) 多言語テキストの自…
初めに 開発環境 環境構築 CLIのインストール モデルのダウンロード CLIの基本的な使い方 テキストから音声合成 パラメータの調整 デバイス指定 raw PCM出力 バッチ処理 8言語G2P 対応言語とfeature flags G2P APIの使い方 Rust APIでの合成 ストリーミング…
初めに 開発環境 Dockerイメージの構成 Gradio WebUIの起動 リポジトリのクローンとビルド コンテナの起動(モデル自動ダウンロード) ブラウザでアクセス 手動でモデルを配置する場合 docker-composeによる起動 複数モデルの利用 所感 初めに 今回は、piper…
初めに 開発環境 OpenJTalkのフルコンテキストラベルとは 韻律記号への変換 「N」の文脈依存変異 環境構築 前処理でのラベル適用 espeak-ng(ラベルなし)での前処理 OpenJTalk(ラベルあり)での前処理 学習への韻律情報注入 所感 初めに 日本語のTTSでは、…
初めに 開発環境 環境構築 プロジェクトの作成 インストール 日本語モデルのダウンロード 基本的な推論 Pythonコードからの推論 GPU推論 CLIからの推論 ストリーミング合成 カスタム辞書と直接フォネム入力 所感 初めに 今回は、自分が開発しているTTSライブ…