macでneutts-airを動かす

AI

初めに開発環境環境構築実行初めに開発環境 mac M4 uv 0.9.x 環境構築 uv venv -p 3.11 source .venv/bin/activate まずは英語の推論のための espeak-ngを入れます brew install espeak ライブラリを入れます uv pip install -r requirements.txt 次にm…

2025-10-21

WindowsでStreamVoiceAnonを動かしてボイス変換を試す

AI

初めに開発環境環境構築ボイス変換の実行初めに最近公開されたリアルタイム音声匿名化／音声変換モデルのStreamVoiceAnonを動かしていきます github.com 開発環境 Windows 11 uv 0.9.x 環境構築 uv venv .venv .venv/bin/activate ライブラリを入れてい…

2025-10-19

WindowsでTaDiCodecで音声合成を行う

AI

初めに開発環境環境構築音声合成の実行初めに音声言語モデリングのための拡散ベースの音声トークナイザーのライブラリが出ていたので触っていきます。今回はライブラリ側で提供されている音声合成機能部分を使います TaDiCodecには以下の二つが提供され…

2025-10-18

WindowsのuvでFlash Attentionをwheelからインストールする

Python

初めに開発環境問題解決策備考初めに Windows環境でFlash Attentionがuv経由でインストールできなかったのでそのときの対応方法です開発環境 Windows 11 uv 0.9.x python 3.10 問題はじめに以下でインストールを試みましたが、以下のエラーが出ました…

2025-10-18

話者ダイアライゼーションツールキットのDiariZenをWindowsで動かす

AI

初めに開発環境環境構築モデルのダウンロード実行初めに AudioZenとPyannote 3.1をベースとした話者ダイアライゼーション(speaker diarization)ツールキットが公開されました。特徴としては以下になります。自己教師あり学習(SSL)ベースのWavLMモデル…

2025-10-18

文書画像解析用のマルチモーダルVLMモデル「Dolphin」をWindowsで動かす

AI

初めに開発環境環境構築実行初めに Bytedanceから文章の画像分析マルチモーダルがOSSで公開されています。こちらをローカルで動かしていきます Model Spaceは以下で公開されています huggingface.co 開発環境 Windows 11 uv 0.9.x 環境構築まずはPython…

2025-10-18

UtterTuneで独自データセットでLoRA学習を行う

AI

初めに開発環境環境構築データセットの構築前処理を実行マニフェストファイル生成マニフェスト形式生成スクリプトの例マニフェストの作成処理の実行出力例学習実行推論実行基本的な推論複数テキストの一括合成テキストファイルからの読み込み …

2025-10-17

BytePlusのSeed SpeechのVoice Replicationを使って音声クローンを試す

AI

初めに開発環境環境構築 .envを作成音声のアップロード学習されたモデルで推論を実行初めに以下の音声クローンを試していきます。音声クローン以外にもいくつか提供されている音声を使うこともできます www.byteplus.com 開発環境 Windows 11 uv 0.9.x…

2025-10-17

CosyVoice2にLoRAアダプターで音素レベルの発音・韻律制御を実現するUtterTuneをCLIとWebUIで動かす

AI

初めに開発環境環境構築 CLIで推論 WebUIを作成・実行初めに 1か月ほど前に Cosy-Voiceを改良した UtterTuneが公開されました。リポジトリは以下です。 github.com こちらはLoRAを用いてアクセントやピッチをより正確に発音できるように改善されています…

2025-10-17

ラズパイでも動く軽量TTSモデルのpiperを改良した日本語対応のpiper-plusの開発

AI

初めに開発環境改善内容課題初めに以前から以下のような記事を書いてより軽量なモデルでローカルで動くTTSがないかの検証をしていました。 ayousanz.hatenadiary.jp ayousanz.hatenadiary.jp 日本語の学習についての検証は以下です。 ayousanz.hatenadi…

2025-10-12

ターン検出のsmart-turnでリアルタイムで発話中かどうかを判定する

AI

初めに開発環境環境構築ターン検出初めに発話中かどうかはVADを用いて判定することが多いです。今回は VADではなくターン検出を使って発話中の判定を行っていきます github.com 開発環境 Mac OS uv 環境構築まずは音声入力を扱うために必要なライブラ…

2025-10-11

smallttsをDocker環境で動かす

AI

初めに開発環境環境構築推論の実行初めに軽量のTTSモデルの smallttsを動かしていきます。 github.com 英語以外は対応していないので、生成できる音声は英語のみになります開発環境 Windows 11 Docker 環境構築以下のDockerファイルを作成します # CP…

2025-10-02

VoiceStarをDocker環境で動かす

AI

初めに開発環境 Docker環境の作成初めに ZeroShotのTTSが出たので触っていきます arxiv.org リポジトリは以下になります github.com Docker対応したものは以下で公開しています github.com 備考 Training data. Our training set consists of the English …

yousanのメモ

2025-10-01から1ヶ月間の記事一覧

macでneutts-airを動かす

WindowsでStreamVoiceAnonを動かしてボイス変換を試す

WindowsでTaDiCodecで音声合成を行う

WindowsのuvでFlash Attentionをwheelからインストールする

話者ダイアライゼーションツールキットのDiariZenをWindowsで動かす

文書画像解析用のマルチモーダルVLMモデル「Dolphin」をWindowsで動かす

UtterTuneで独自データセットでLoRA学習を行う

BytePlusのSeed SpeechのVoice Replicationを使って音声クローンを試す

CosyVoice2にLoRAアダプターで音素レベルの発音・韻律制御を実現するUtterTuneをCLIとWebUIで動かす

ラズパイでも動く軽量TTSモデルのpiperを改良した日本語対応のpiper-plusの開発

ターン検出のsmart-turnでリアルタイムで発話中かどうかを判定する

smallttsをDocker環境で動かす

VoiceStarをDocker環境で動かす