AI

WindowsでTaDiCodecで音声合成を行う

AI

初めに 開発環境 環境構築 音声合成の実行 初めに 音声言語モデリングのための拡散ベースの音声トークナイザーのライブラリが出ていたので触っていきます。今回はライブラリ側で提供されている音声合成機能部分を使います TaDiCodecには以下の二つが提供され…

話者ダイアライゼーションツールキットのDiariZenをWindowsで動かす

AI

初めに 開発環境 環境構築 モデルのダウンロード 実行 初めに AudioZenとPyannote 3.1をベースとした話者ダイアライゼーション(speaker diarization)ツールキットが公開されました。 特徴としては以下になります。 自己教師あり学習(SSL)ベースのWavLMモデル…

文書画像解析用のマルチモーダルVLMモデル「Dolphin」をWindowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに Bytedanceから文章の画像分析マルチモーダルがOSSで公開されています。こちらをローカルで動かしていきます Model Spaceは以下で公開されています huggingface.co 開発環境 Windows 11 uv 0.9.x 環境構築 まずはPython…

UtterTuneで独自データセットでLoRA学習を行う

AI

初めに 開発環境 環境構築 データセットの構築 前処理を実行 マニフェストファイル生成 マニフェスト形式 生成スクリプトの例 マニフェストの作成処理の実行 出力例 学習実行 推論実行 基本的な推論 複数テキストの一括合成 テキストファイルからの読み込み …

BytePlusのSeed SpeechのVoice Replicationを使って音声クローンを試す

AI

初めに 開発環境 環境構築 .envを作成 音声のアップロード 学習されたモデルで推論を実行 初めに 以下の音声クローンを試していきます。音声クローン以外にもいくつか提供されている音声を使うこともできます www.byteplus.com 開発環境 Windows 11 uv 0.9.x…

CosyVoice2にLoRAアダプターで 音素レベルの発音・韻律制御を実現するUtterTuneをCLIとWebUIで動かす

AI

初めに 開発環境 環境構築 CLIで推論 WebUIを作成・実行 初めに 1か月ほど前に Cosy-Voiceを改良した UtterTuneが公開されました。 リポジトリは以下です。 github.com こちらはLoRAを用いてアクセントやピッチをより正確に発音できるように改善されています…

ラズパイでも動く軽量TTSモデルのpiperを改良した日本語対応のpiper-plusの開発

AI

初めに 開発環境 改善内容 課題 初めに 以前から以下のような記事を書いてより軽量なモデルでローカルで動くTTSがないかの検証をしていました。 ayousanz.hatenadiary.jp ayousanz.hatenadiary.jp 日本語の学習についての検証は以下です。 ayousanz.hatenadi…

ターン検出のsmart-turnでリアルタイムで発話中かどうかを判定する

AI

初めに 開発環境 環境構築 ターン検出 初めに 発話中かどうかはVADを用いて判定することが多いです。今回は VADではなくターン検出を使って発話中の判定を行っていきます github.com 開発環境 Mac OS uv 環境構築 まずは音声入力を扱うために必要なライブラ…

smallttsをDocker環境で動かす

AI

初めに 開発環境 環境構築 推論の実行 初めに 軽量のTTSモデルの smartttsを動かしていきます。 github.com 英語以外は対応していないので、生成できる音声は英語のみになります 開発環境 Windows 11 Docker 環境構築 以下のDockerファイルを作成します # CP…

VoiceStarをDocker環境で動かす

AI

初めに 開発環境 Docker環境の作成 初めに ZeroShotのTTSが出たので触っていきます arxiv.org リポジトリは以下になります github.com Docker対応したものは以下で公開しています github.com 備考 Training data. Our training set consists of the English …

ShinkaEvolveのCircle PackingをWindowsで動かす

AI

初めに 開発環境 環境構築 サンプルの実行 WebUIでGUI上で確認 初めに 開発環境 Windows 11 uv 環境構築 まずはuvで環境構築を行います uv venv -p 3.11 .\.venv\Scripts\activate 次に関連ライブラリをインストールします uv pip install -e . OpenAIのAPI…

さくらのAI Engineでgpt-oss-120bをpythonで実行する

初めに 開発環境 環境構築 APIトークンの発行 Pythonで実行 初めに さくらインターネットが新しくOSSのLLM等をGPUにホスティングして無料枠を提供しています。 www.sakura.ad.jp 無料枠と料金は以下のようになっています 各種APIドキュメントは以下です manu…

日本語対応の軽量TTSライブラリ「piper-plus」をPythonで動かす

初めに 開発環境 環境構築 コードから推論を実行 初めに 先日以下のようなライブラリを発表しました 【新作OSSを一挙3本公開!】音声合成・Unity・デスクトップアプリの領域で、3つのオープンソースプロジェクトを公開しました!piper-plus: 高速・軽量な日…

Qwen/Qwen3Guard-Gen-8BをWindowsで動かす

AI

初めに 開発環境 環境構築 モデルの実装 モデルを量子化してロード 日本語のプロトタイプを試す 初めに Qwenのsafety moderation modelが出たので触ってみます ️ Meet Qwen3Guard — the Qwen3-based safety moderation model series built for global, real-…

kabosu-coreを使って日本語の文章でg2p処理をする

AI

初めに 開発環境 環境構築 日本語文章でg2pを実行 初めに 新しいTTSの前処理のライブラリがでていたので、試してみます github.com 開発環境 uv window 11 python 3.21 環境構築 まずはuvを使って環境構築をします uv venv --python 3.12 .venv\Scripts\acti…

FireRedTTS2をWindowsで動かす

AI

初めに 開発環境 環境構築 デモの起動 ランダムボイスの実行 ボイスクローン 初めに 長時間会話音声生成をするための音声合成ライブラリが出ていたので、試していきます 開発環境 Windows 11 uv 環境構築 リポジトリのReadMeにはcondaで環境構築をしています…

Qwen2-Audio-7B-Instructで音声とテキストから感情を判定する

初めに 開発環境 環境構築 判定の実行 初めに いままで試してきた感情の判定は、音声データもしくはテキストデータの片方から判定を行っていました。 今回はマルチモーダルを用いて両方のデータから判定を行っていきます 開発環境 Windows 11 python 3.12 環…

YoichiTakenaka/deverta-v3-japanese-large-Anticipationでテキストの感情を判定する

開発環境 環境構築 ラベル判定 開発環境 Windows 11 Python 3.12 cuda 12.4 環境構築 以下で環境構築をして、必要なライブラリをインストールします uv venv .\.venv\Scripts\activate uv pip install torch --index-url https://download.pytorch.org/whl/c…

litagin/anime_speech_emotion_classificationを使って音声の感情を判定する

初めに 開発環境 環境構築 感情の判定 初めに 以下でも音声ファイルの感情判定を行っていますが、こちらとは違うモデルを使って判定を行っていきます ayousanz.hatenadiary.jp 開発環境 Windows 11 Python 3.12 環境構築 以下で必要なライブラリをインストー…

FunAudioLLM/SenseVoiceSmallを使って音声の感情を判定する

開発環境 環境構築 実行 開発環境 Windows 11 python 3.12 cuda 12.4 環境構築 以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行 以下の…

vosk-unity-asrを使ってUnityでローカルの音声認識処理を行う

初めに 開発環境 実行 初めに Unityを使って音声認識をする場合、日本語の音声認識のローカルモデルはほぼないです。今回は、vosk-unity-asr (リンク先はfork版) を使って動かしてみます 開発環境 unity 6000.x.x 実行 リポジトリをcloneすると以下のように…

piperモデルからつくよみちゃんデータセットを使って追加学習を行う

初めに Demo 開発環境 前処理 事前学習モデルから 追加学習用のモデルを作成 追加学習 onnxに変換 推論 初めに 以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…

XPhoneBERTを使って文章から音素列に変換する

初めに 開発環境 環境構築 実行 初めに TTSを行う際にg2pを使うことがよくあります。今回はbertを使った音素変換モデルを試します 以下にて試したリポジトリは公開しています。 github.com 開発環境 python 3.12 cuda GPU 環境構築 pythonの環境を作り、以下…

jvs音声データセットを使ったpiper日本語モデルの作成

初めに 開発環境 データセットの準備 jvsデータセットをljspeechデータセットフォーマットに変換 学習コード及び推論コードの日本語の音素の対応 学習 推論 初めに 前回の記事でljspeechデータセットを使った英語のモデルを作成しました。今回は日本語モデル…

LJSpeechを使って英語のpiperの事前学習モデルを作成する

Demo 開発環境 環境の構築 データセットの準備 前処理・ログ用のフォルダの作成 前処理の実行 事前学習の開始 モデルをonnxに変換 学習したモデルから推論 Demo 学習したモデルは以下で公開しています huggingface.co 生成した音声は以下のようになります yo…

python-audio-separatorで歌声のボーカルを抽出する

初めに 開発環境 環境構築 使用できるモデルの取得 CLIからボーカルを抽出 Pythonから実行 初めに 以下で歌声の音源からボーカルを抽出していました ayousanz.hatenadiary.jp 改めて調査するとより多くのモデルと精度の高いモデルが選べるのものがあり、ロー…

k-washi/speaker-emb-ja-ecapa-tdnnを使って似ている歌声ボーカルを探す

初めに 開発環境 環境構築 音声データの取得 speaker-emb-ja-ecapa-tdnnを使って音声類似度比較を行う 初めに 以下の記事で Resemblyzerを使って似ている歌声を探してみました。今回は 別のモデルを使ってみます ayousanz.hatenadiary.jp 開発環境 python 3.…

Resemblyzerを使って歌声ボーカルが近い音声を探す

初めに 開発環境 歌声ボーカルデータの取得 埋め込みモデルを使って指定した歌声から近いボーカスを取得 初めに ある声とある声がどのくらい似ているかを測るための方法はいくつかありますが、今回は Resemblyzer の埋め込みモデルを使ってみます 開発環境 P…

Windowsでkokoro TTSを動かす

初めに 開発環境 環境構築 話者を指定して音声合成 初めに モデルのサイズが軽量で動かせる kokoroがあります。こちらをpythonの環境で動かしていきます テストプロジェクトは以下で公開しています github.com 開発環境 Windows 11 Python 3.11 環境構築 ま…

gemma-unity-pluginをUnityで動かす

初めに 開発環境 ライブラリのインストール モデルのダウンロード Gemmaライブラリ用の設定ファイルの作成 スクリプトの作成と設定 備考 初めに 先日 Google がgemmaをゲーム領域で使っていく発表がありました。その中で以下のライブラリが公開されていたの…