AI
初めに 開発環境 環境構築 音声合成の実行 初めに 音声言語モデリングのための拡散ベースの音声トークナイザーのライブラリが出ていたので触っていきます。今回はライブラリ側で提供されている音声合成機能部分を使います TaDiCodecには以下の二つが提供され…
初めに 開発環境 環境構築 モデルのダウンロード 実行 初めに AudioZenとPyannote 3.1をベースとした話者ダイアライゼーション(speaker diarization)ツールキットが公開されました。 特徴としては以下になります。 自己教師あり学習(SSL)ベースのWavLMモデル…
初めに 開発環境 環境構築 実行 初めに Bytedanceから文章の画像分析マルチモーダルがOSSで公開されています。こちらをローカルで動かしていきます Model Spaceは以下で公開されています huggingface.co 開発環境 Windows 11 uv 0.9.x 環境構築 まずはPython…
初めに 開発環境 環境構築 データセットの構築 前処理を実行 マニフェストファイル生成 マニフェスト形式 生成スクリプトの例 マニフェストの作成処理の実行 出力例 学習実行 推論実行 基本的な推論 複数テキストの一括合成 テキストファイルからの読み込み …
初めに 開発環境 環境構築 .envを作成 音声のアップロード 学習されたモデルで推論を実行 初めに 以下の音声クローンを試していきます。音声クローン以外にもいくつか提供されている音声を使うこともできます www.byteplus.com 開発環境 Windows 11 uv 0.9.x…
初めに 開発環境 環境構築 CLIで推論 WebUIを作成・実行 初めに 1か月ほど前に Cosy-Voiceを改良した UtterTuneが公開されました。 リポジトリは以下です。 github.com こちらはLoRAを用いてアクセントやピッチをより正確に発音できるように改善されています…
初めに 開発環境 改善内容 課題 初めに 以前から以下のような記事を書いてより軽量なモデルでローカルで動くTTSがないかの検証をしていました。 ayousanz.hatenadiary.jp ayousanz.hatenadiary.jp 日本語の学習についての検証は以下です。 ayousanz.hatenadi…
初めに 開発環境 環境構築 ターン検出 初めに 発話中かどうかはVADを用いて判定することが多いです。今回は VADではなくターン検出を使って発話中の判定を行っていきます github.com 開発環境 Mac OS uv 環境構築 まずは音声入力を扱うために必要なライブラ…
初めに 開発環境 環境構築 推論の実行 初めに 軽量のTTSモデルの smartttsを動かしていきます。 github.com 英語以外は対応していないので、生成できる音声は英語のみになります 開発環境 Windows 11 Docker 環境構築 以下のDockerファイルを作成します # CP…
初めに 開発環境 Docker環境の作成 初めに ZeroShotのTTSが出たので触っていきます arxiv.org リポジトリは以下になります github.com Docker対応したものは以下で公開しています github.com 備考 Training data. Our training set consists of the English …
初めに 開発環境 環境構築 サンプルの実行 WebUIでGUI上で確認 初めに 開発環境 Windows 11 uv 環境構築 まずはuvで環境構築を行います uv venv -p 3.11 .\.venv\Scripts\activate 次に関連ライブラリをインストールします uv pip install -e . OpenAIのAPI…
初めに 開発環境 環境構築 APIトークンの発行 Pythonで実行 初めに さくらインターネットが新しくOSSのLLM等をGPUにホスティングして無料枠を提供しています。 www.sakura.ad.jp 無料枠と料金は以下のようになっています 各種APIドキュメントは以下です manu…
初めに 開発環境 環境構築 コードから推論を実行 初めに 先日以下のようなライブラリを発表しました 【新作OSSを一挙3本公開!】音声合成・Unity・デスクトップアプリの領域で、3つのオープンソースプロジェクトを公開しました!piper-plus: 高速・軽量な日…
初めに 開発環境 環境構築 モデルの実装 モデルを量子化してロード 日本語のプロトタイプを試す 初めに Qwenのsafety moderation modelが出たので触ってみます ️ Meet Qwen3Guard — the Qwen3-based safety moderation model series built for global, real-…
初めに 開発環境 環境構築 日本語文章でg2pを実行 初めに 新しいTTSの前処理のライブラリがでていたので、試してみます github.com 開発環境 uv window 11 python 3.21 環境構築 まずはuvを使って環境構築をします uv venv --python 3.12 .venv\Scripts\acti…
初めに 開発環境 環境構築 デモの起動 ランダムボイスの実行 ボイスクローン 初めに 長時間会話音声生成をするための音声合成ライブラリが出ていたので、試していきます 開発環境 Windows 11 uv 環境構築 リポジトリのReadMeにはcondaで環境構築をしています…
初めに 開発環境 環境構築 判定の実行 初めに いままで試してきた感情の判定は、音声データもしくはテキストデータの片方から判定を行っていました。 今回はマルチモーダルを用いて両方のデータから判定を行っていきます 開発環境 Windows 11 python 3.12 環…
開発環境 環境構築 ラベル判定 開発環境 Windows 11 Python 3.12 cuda 12.4 環境構築 以下で環境構築をして、必要なライブラリをインストールします uv venv .\.venv\Scripts\activate uv pip install torch --index-url https://download.pytorch.org/whl/c…
初めに 開発環境 環境構築 感情の判定 初めに 以下でも音声ファイルの感情判定を行っていますが、こちらとは違うモデルを使って判定を行っていきます ayousanz.hatenadiary.jp 開発環境 Windows 11 Python 3.12 環境構築 以下で必要なライブラリをインストー…
開発環境 環境構築 実行 開発環境 Windows 11 python 3.12 cuda 12.4 環境構築 以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行 以下の…
初めに 開発環境 実行 初めに Unityを使って音声認識をする場合、日本語の音声認識のローカルモデルはほぼないです。今回は、vosk-unity-asr (リンク先はfork版) を使って動かしてみます 開発環境 unity 6000.x.x 実行 リポジトリをcloneすると以下のように…
初めに Demo 開発環境 前処理 事前学習モデルから 追加学習用のモデルを作成 追加学習 onnxに変換 推論 初めに 以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…
初めに 開発環境 環境構築 実行 初めに TTSを行う際にg2pを使うことがよくあります。今回はbertを使った音素変換モデルを試します 以下にて試したリポジトリは公開しています。 github.com 開発環境 python 3.12 cuda GPU 環境構築 pythonの環境を作り、以下…
初めに 開発環境 データセットの準備 jvsデータセットをljspeechデータセットフォーマットに変換 学習コード及び推論コードの日本語の音素の対応 学習 推論 初めに 前回の記事でljspeechデータセットを使った英語のモデルを作成しました。今回は日本語モデル…
Demo 開発環境 環境の構築 データセットの準備 前処理・ログ用のフォルダの作成 前処理の実行 事前学習の開始 モデルをonnxに変換 学習したモデルから推論 Demo 学習したモデルは以下で公開しています huggingface.co 生成した音声は以下のようになります yo…
初めに 開発環境 環境構築 使用できるモデルの取得 CLIからボーカルを抽出 Pythonから実行 初めに 以下で歌声の音源からボーカルを抽出していました ayousanz.hatenadiary.jp 改めて調査するとより多くのモデルと精度の高いモデルが選べるのものがあり、ロー…
初めに 開発環境 環境構築 音声データの取得 speaker-emb-ja-ecapa-tdnnを使って音声類似度比較を行う 初めに 以下の記事で Resemblyzerを使って似ている歌声を探してみました。今回は 別のモデルを使ってみます ayousanz.hatenadiary.jp 開発環境 python 3.…
初めに 開発環境 歌声ボーカルデータの取得 埋め込みモデルを使って指定した歌声から近いボーカスを取得 初めに ある声とある声がどのくらい似ているかを測るための方法はいくつかありますが、今回は Resemblyzer の埋め込みモデルを使ってみます 開発環境 P…
初めに 開発環境 環境構築 話者を指定して音声合成 初めに モデルのサイズが軽量で動かせる kokoroがあります。こちらをpythonの環境で動かしていきます テストプロジェクトは以下で公開しています github.com 開発環境 Windows 11 Python 3.11 環境構築 ま…
初めに 開発環境 ライブラリのインストール モデルのダウンロード Gemmaライブラリ用の設定ファイルの作成 スクリプトの作成と設定 備考 初めに 先日 Google がgemmaをゲーム領域で使っていく発表がありました。その中で以下のライブラリが公開されていたの…