2025-10-01から1ヶ月間の記事一覧
初めに 開発環境 環境構築 実行 初めに 開発環境 mac M4 uv 0.9.x 環境構築 uv venv -p 3.11 source .venv/bin/activate まずは英語の推論のための espeak-ngを入れます brew install espeak ライブラリを入れます uv pip install -r requirements.txt 次にm…
初めに 開発環境 環境構築 ボイス変換の実行 初めに 最近公開されたリアルタイム音声匿名化/音声変換モデルのStreamVoiceAnonを動かしていきます github.com 開発環境 Windows 11 uv 0.9.x 環境構築 uv venv .venv .venv/bin/activate ライブラリを入れてい…
初めに 開発環境 環境構築 音声合成の実行 初めに 音声言語モデリングのための拡散ベースの音声トークナイザーのライブラリが出ていたので触っていきます。今回はライブラリ側で提供されている音声合成機能部分を使います TaDiCodecには以下の二つが提供され…
初めに 開発環境 問題 解決策 備考 初めに Windows環境でFlash Attentionがuv経由でインストールできなかったのでそのときの対応方法です 開発環境 Windows 11 uv 0.9.x python 3.10 問題 はじめに以下でインストールを試みましたが、以下のエラーが出ました…
初めに 開発環境 環境構築 モデルのダウンロード 実行 初めに AudioZenとPyannote 3.1をベースとした話者ダイアライゼーション(speaker diarization)ツールキットが公開されました。 特徴としては以下になります。 自己教師あり学習(SSL)ベースのWavLMモデル…
初めに 開発環境 環境構築 実行 初めに Bytedanceから文章の画像分析マルチモーダルがOSSで公開されています。こちらをローカルで動かしていきます Model Spaceは以下で公開されています huggingface.co 開発環境 Windows 11 uv 0.9.x 環境構築 まずはPython…
初めに 開発環境 環境構築 データセットの構築 前処理を実行 マニフェストファイル生成 マニフェスト形式 生成スクリプトの例 マニフェストの作成処理の実行 出力例 学習実行 推論実行 基本的な推論 複数テキストの一括合成 テキストファイルからの読み込み …
初めに 開発環境 環境構築 .envを作成 音声のアップロード 学習されたモデルで推論を実行 初めに 以下の音声クローンを試していきます。音声クローン以外にもいくつか提供されている音声を使うこともできます www.byteplus.com 開発環境 Windows 11 uv 0.9.x…
初めに 開発環境 環境構築 CLIで推論 WebUIを作成・実行 初めに 1か月ほど前に Cosy-Voiceを改良した UtterTuneが公開されました。 リポジトリは以下です。 github.com こちらはLoRAを用いてアクセントやピッチをより正確に発音できるように改善されています…
初めに 開発環境 改善内容 課題 初めに 以前から以下のような記事を書いてより軽量なモデルでローカルで動くTTSがないかの検証をしていました。 ayousanz.hatenadiary.jp ayousanz.hatenadiary.jp 日本語の学習についての検証は以下です。 ayousanz.hatenadi…
初めに 開発環境 環境構築 ターン検出 初めに 発話中かどうかはVADを用いて判定することが多いです。今回は VADではなくターン検出を使って発話中の判定を行っていきます github.com 開発環境 Mac OS uv 環境構築 まずは音声入力を扱うために必要なライブラ…
初めに 開発環境 環境構築 推論の実行 初めに 軽量のTTSモデルの smallttsを動かしていきます。 github.com 英語以外は対応していないので、生成できる音声は英語のみになります 開発環境 Windows 11 Docker 環境構築 以下のDockerファイルを作成します # CP…
初めに 開発環境 Docker環境の作成 初めに ZeroShotのTTSが出たので触っていきます arxiv.org リポジトリは以下になります github.com Docker対応したものは以下で公開しています github.com 備考 Training data. Our training set consists of the English …