AI

FunAudioLLM/SenseVoiceSmallを使って音声の感情を判定する

開発環境 環境構築 実行 開発環境 Windows 11 python 3.12 cuda 12.4 環境構築 以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行 以下の…

vosk-unity-asrを使ってUnityでローカルの音声認識処理を行う

初めに 開発環境 実行 初めに Unityを使って音声認識をする場合、日本語の音声認識のローカルモデルはほぼないです。今回は、vosk-unity-asr (リンク先はfork版) を使って動かしてみます 開発環境 unity 6000.x.x 実行 リポジトリをcloneすると以下のように…

piperモデルからつくよみちゃんデータセットを使って追加学習を行う

初めに Demo 開発環境 前処理 事前学習モデルから 追加学習用のモデルを作成 追加学習 onnxに変換 推論 初めに 以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…

XPhoneBERTを使って文章から音素列に変換する

初めに 開発環境 環境構築 実行 初めに TTSを行う際にg2pを使うことがよくあります。今回はbertを使った音素変換モデルを試します 以下にて試したリポジトリは公開しています。 github.com 開発環境 python 3.12 cuda GPU 環境構築 pythonの環境を作り、以下…

jvs音声データセットを使ったpiper日本語モデルの作成

初めに 開発環境 データセットの準備 jvsデータセットをljspeechデータセットフォーマットに変換 学習コード及び推論コードの日本語の音素の対応 学習 推論 初めに 前回の記事でljspeechデータセットを使った英語のモデルを作成しました。今回は日本語モデル…

LJSpeechを使って英語のpiperの事前学習モデルを作成する

Demo 開発環境 環境の構築 データセットの準備 前処理・ログ用のフォルダの作成 前処理の実行 事前学習の開始 モデルをonnxに変換 学習したモデルから推論 Demo 学習したモデルは以下で公開しています huggingface.co 生成した音声は以下のようになります yo…

python-audio-separatorで歌声のボーカルを抽出する

初めに 開発環境 環境構築 使用できるモデルの取得 CLIからボーカルを抽出 Pythonから実行 初めに 以下で歌声の音源からボーカルを抽出していました ayousanz.hatenadiary.jp 改めて調査するとより多くのモデルと精度の高いモデルが選べるのものがあり、ロー…

k-washi/speaker-emb-ja-ecapa-tdnnを使って似ている歌声ボーカルを探す

初めに 開発環境 環境構築 音声データの取得 speaker-emb-ja-ecapa-tdnnを使って音声類似度比較を行う 初めに 以下の記事で Resemblyzerを使って似ている歌声を探してみました。今回は 別のモデルを使ってみます ayousanz.hatenadiary.jp 開発環境 python 3.…

Resemblyzerを使って歌声ボーカルが近い音声を探す

初めに 開発環境 歌声ボーカルデータの取得 埋め込みモデルを使って指定した歌声から近いボーカスを取得 初めに ある声とある声がどのくらい似ているかを測るための方法はいくつかありますが、今回は Resemblyzer の埋め込みモデルを使ってみます 開発環境 P…

Windowsでkokoro TTSを動かす

初めに 開発環境 環境構築 話者を指定して音声合成 初めに モデルのサイズが軽量で動かせる kokoroがあります。こちらをpythonの環境で動かしていきます テストプロジェクトは以下で公開しています github.com 開発環境 Windows 11 Python 3.11 環境構築 ま…

gemma-unity-pluginをUnityで動かす

初めに 開発環境 ライブラリのインストール モデルのダウンロード Gemmaライブラリ用の設定ファイルの作成 スクリプトの作成と設定 備考 初めに 先日 Google がgemmaをゲーム領域で使っていく発表がありました。その中で以下のライブラリが公開されていたの…

piper.unityをsentis2.1で動かす

初めに 開発環境 セットアップ sentis2.1に対応 初めに unity sentisを使ってtext to speechを実現する方法として、以下の二つがあります。 jets( unity/sentis-jets-text-to-speech) piper.unity 今回は jetsではなく、piper.unityを動かしていきます。しか…

Spark-TTSをローカルで動かす

AI

初めに 開発環境 環境構築 WebUIの起動 初めに 少し前に出てきたTTSライブラリのSpark-TTSを動かしていきます。 開発環境 Windows11 uv 環境構築 ReadMeに従って環境構築を行います。環境構築にはuvを使っています。 uv venv -p 3.12 .venv\Scripts\activate…

OuteTTSをDockerを使ってWindowsで動かす

初めに 開発環境 Docker環境の作成 実行 初めに 以下のOuteTTSをローカル環境で動かしていきます。 github.com 以下のリポジトリに記事の内容を公開しています。 github.com 追記 ver3になり、llama.cpp(python)を使うようになっていたので、旧環境ではうご…

Music2EmotionをWindowsで動かしつつyoutubeのURLを指定で動くようにしてみる

初めに デモ 開発環境 環境構築 引数にURLを指定して実行する 初めに 音楽の感情ラベルのライブラリおよびモデルが公開されたので触っていきます github.com 公式からspaceは出ています huggingface.co デモ 以下のように youtubeのURLを指定して実行すると…

esnya/japanese_speecht5_ttsを動かして音声合成を行う

初めに 開発環境 環境作成 推論の準備 推論 初めに 前に英語版を動かしてみました。今回は日本語の追加学習モデルのesnya/japanese_speecht5_ttsが出ていたので,こちらを動かしていきます ayousanz.hatenadiary.jp 以下にて記事の内容をリポジトリで公開し…

microsoft/speecht5_ttsを動かして音声合成を行う

初めに 開発環境 環境作成 実行 TTS pipelineを使う方法 transformers modelling codeを使う方法 初めに 以下のTTSモデルを動かしていきます。音声とテキストの両方のデータを用いた新しい事前学習モデルです huggingface.co 以下にて記事の内容をリポジトリ…

sbintuitions/modernbert-ja-130mに追加学習をして文章からVTuberかどうかを判断する教師あり学習による2値分類モデルを作成する

初めに 開発環境 Google Colobの準備 データセットの作成 データをhuggingfaceにアップロード wandbの準備(必要なければスキップ可) 学習・評価 学習したモデルをhuggingfaceにアップロード モデルをWindowsで推論する 環境作成 推論 初めに 1週間ほど前に s…

Docker環境でJETSモデルの音声合成および学習を行う

初めに 開発環境 必要なリポジトリをclone Docker環境を作る 前処理 音声合成の実行 音声合成の結果 JETSの学習 初めに TTSのモデルの中にjetsがあります。2年ほど前のモデルなので環境構築がかなり大変だったのでDockerを使って動かせる環境を作ります 今回…

wtpsplitをwindowsで動かす

初めに 開発環境 環境作成 ライブラリのインストール 実行 初めに 以下のテキストをセグメント化するライブラリを動かしていきます github.com 記事の内容は以下のリポジトリに公開しています github.com 開発環境 Windows11 uv 環境作成 uvを使ってpython3.…

piper-without-espeakをDocker環境でローカルで動かす

AI

初めに 開発環境 実行 onnx-gpuで動かす場合 初めに TTSライブラリの一つであるpiperがあります。こちらはespeakやpiper-phonemizerに依存しているため、依存しないようにしたライブライであるpiper-without-espeakを動かしていきます。Windows環境ではイン…

ZonosをDockerからWebUIで触る

AI

初めに 開発環境 実行 初めに TTSおよびvoice cloneのモデルが出たので触ってみます。現時点では学習周りは一切できないみたいです Today, we're excited to announce a beta release of Zonos, a highly expressive TTS model with high fidelity voice clo…

HKUSTAudio/Llasa-1B-Multilingualをdockerで動かす

初めに デモ 開発環境 環境作成 実行 初めに TTSのモデルが公開されたのでローカルで多言語対応(日本語にも対応)しているモデルを動かしてみます 以下は公開されたモデル一覧です huggingface.co デモ 生成テキスト「言いなりにならなきゃいけないほど後ろめ…

unity sentis v2.1.1でPhi-1.5を動かす

初めに 開発環境 セットアップ 実行 sentis v1からv2への大きな変更点 変更された項目 削除された項目 備考 初めに 過去にsentisの1.3.0-pre.3で動かしていましたが、unity6およびsentis v2が出ているのでこちらでも動かしていきます。 過去の記事はこちら a…

genagentsを使って文化シミュレーションを行う

AI

初めに 開発環境 セットアップ 一人のエージェントにユーザー質問をする 記憶システムを追加 複数人のエージェントに対して質問をする 数年単位の複数エージェントに対しての文化シミュレーション 初めに LLM・LLM活用アドカレ 18日目です! genagentsは、生…

wespeakerとxvectorの話者埋め込みモデルを使った日本語話者ダイアライゼーションの評価

AI

初めに 事前調査 開発環境 評価データ 対象のモデル 評価結果 評価方法 wespeaker xvector_jtubespeech 初めに 音声データを文字お越しをする際に、複数人の音声が入っている場合に 「誰がいつ話したのか」を推定する技術として 話者ダイアライゼーションが…

talkbank/callhomeの日本語音声をwav形式で保存する

AI

開発環境 セットアップ 実行 開発環境 python 3.9 uv セットアップ ライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行 以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…

pyannote + whisperで話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ 実行 初めに 今回は定番のpyanonoteとwhisperで話者ダイアライゼーションを行ってみます 以下で記事のサンプルリポジトリを公開しています github.com 過去にはほかのライブラリでも試しているので、ほかにどのようなライブラ…

Wespeaker/wespeaker-voxceleb-resnet34-LMで話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ CLIから実行 Pythonのコードで実行 備考 初めに wespeakerで話者ダイアライゼーションを行ってみます。 モデルは以下です huggingface.co 以下に記事の内容のRepositoryを公開しています github.com 開発環境 windows11 python…

powerset_calibrationを使って話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ 話者ダイアライゼーションを実行 初めに powerset_calibrationを使って音声内の話者ダイアライゼーションを行ってみます。論文によりデータセットには日本語が含まれていないため、日本語の音声に使う場合は自分で学習を行う必…