2025-10-01から1ヶ月間の記事一覧

macでneutts-airを動かす

AI

初めに 開発環境 環境構築 実行 初めに 開発環境 mac M4 uv 0.9.x 環境構築 uv venv -p 3.11 source .venv/bin/activate まずは英語の推論のための espeak-ngを入れます brew install espeak ライブラリを入れます uv pip install -r requirements.txt 次にm…

WindowsでStreamVoiceAnonを動かしてボイス変換を試す

AI

初めに 開発環境 環境構築 ボイス変換の実行 初めに 最近公開されたリアルタイム音声匿名化/音声変換モデルのStreamVoiceAnonを動かしていきます github.com 開発環境 Windows 11 uv 0.9.x 環境構築 uv venv .venv .venv/bin/activate ライブラリを入れてい…

WindowsでTaDiCodecで音声合成を行う

AI

初めに 開発環境 環境構築 音声合成の実行 初めに 音声言語モデリングのための拡散ベースの音声トークナイザーのライブラリが出ていたので触っていきます。今回はライブラリ側で提供されている音声合成機能部分を使います TaDiCodecには以下の二つが提供され…

WindowsのuvでFlash Attentionをwheelからインストールする

初めに 開発環境 問題 解決策 備考 初めに Windows環境でFlash Attentionがuv経由でインストールできなかったのでそのときの対応方法です 開発環境 Windows 11 uv 0.9.x python 3.10 問題 はじめに以下でインストールを試みましたが、以下のエラーが出ました…

話者ダイアライゼーションツールキットのDiariZenをWindowsで動かす

AI

初めに 開発環境 環境構築 モデルのダウンロード 実行 初めに AudioZenとPyannote 3.1をベースとした話者ダイアライゼーション(speaker diarization)ツールキットが公開されました。 特徴としては以下になります。 自己教師あり学習(SSL)ベースのWavLMモデル…

文書画像解析用のマルチモーダルVLMモデル「Dolphin」をWindowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに Bytedanceから文章の画像分析マルチモーダルがOSSで公開されています。こちらをローカルで動かしていきます Model Spaceは以下で公開されています huggingface.co 開発環境 Windows 11 uv 0.9.x 環境構築 まずはPython…

UtterTuneで独自データセットでLoRA学習を行う

AI

初めに 開発環境 環境構築 データセットの構築 前処理を実行 マニフェストファイル生成 マニフェスト形式 生成スクリプトの例 マニフェストの作成処理の実行 出力例 学習実行 推論実行 基本的な推論 複数テキストの一括合成 テキストファイルからの読み込み …

BytePlusのSeed SpeechのVoice Replicationを使って音声クローンを試す

AI

初めに 開発環境 環境構築 .envを作成 音声のアップロード 学習されたモデルで推論を実行 初めに 以下の音声クローンを試していきます。音声クローン以外にもいくつか提供されている音声を使うこともできます www.byteplus.com 開発環境 Windows 11 uv 0.9.x…

CosyVoice2にLoRAアダプターで 音素レベルの発音・韻律制御を実現するUtterTuneをCLIとWebUIで動かす

AI

初めに 開発環境 環境構築 CLIで推論 WebUIを作成・実行 初めに 1か月ほど前に Cosy-Voiceを改良した UtterTuneが公開されました。 リポジトリは以下です。 github.com こちらはLoRAを用いてアクセントやピッチをより正確に発音できるように改善されています…

ラズパイでも動く軽量TTSモデルのpiperを改良した日本語対応のpiper-plusの開発

AI

初めに 開発環境 改善内容 課題 初めに 以前から以下のような記事を書いてより軽量なモデルでローカルで動くTTSがないかの検証をしていました。 ayousanz.hatenadiary.jp ayousanz.hatenadiary.jp 日本語の学習についての検証は以下です。 ayousanz.hatenadi…

ターン検出のsmart-turnでリアルタイムで発話中かどうかを判定する

AI

初めに 開発環境 環境構築 ターン検出 初めに 発話中かどうかはVADを用いて判定することが多いです。今回は VADではなくターン検出を使って発話中の判定を行っていきます github.com 開発環境 Mac OS uv 環境構築 まずは音声入力を扱うために必要なライブラ…

smallttsをDocker環境で動かす

AI

初めに 開発環境 環境構築 推論の実行 初めに 軽量のTTSモデルの smallttsを動かしていきます。 github.com 英語以外は対応していないので、生成できる音声は英語のみになります 開発環境 Windows 11 Docker 環境構築 以下のDockerファイルを作成します # CP…

VoiceStarをDocker環境で動かす

AI

初めに 開発環境 Docker環境の作成 初めに ZeroShotのTTSが出たので触っていきます arxiv.org リポジトリは以下になります github.com Docker対応したものは以下で公開しています github.com 備考 Training data. Our training set consists of the English …