2025-06-01から1ヶ月間の記事一覧

YoichiTakenaka/deverta-v3-japanese-large-Anticipationでテキストの感情を判定する

開発環境 環境構築 ラベル判定 開発環境 Windows 11 Python 3.12 cuda 12.4 環境構築 以下で環境構築をして、必要なライブラリをインストールします uv venv .\.venv\Scripts\activate uv pip install torch --index-url https://download.pytorch.org/whl/c…

litagin/anime_speech_emotion_classificationを使って音声の感情を判定する

初めに 開発環境 環境構築 感情の判定 初めに 以下でも音声ファイルの感情判定を行っていますが、こちらとは違うモデルを使って判定を行っていきます ayousanz.hatenadiary.jp 開発環境 Windows 11 Python 3.12 環境構築 以下で必要なライブラリをインストー…

FunAudioLLM/SenseVoiceSmallを使って音声の感情を判定する

開発環境 環境構築 実行 開発環境 Windows 11 python 3.12 cuda 12.4 環境構築 以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行 以下の…

UTMOS-v2 による音質推定値(MOS)をGPUの同時並列で高速に処理を行う

開発環境 処理の実装 実装メモ safetensors 強制ロード 1 GPU = 1 Processで処理をする 開発環境 区分 バージョン / 詳細 備考 OS / イメージ Ubuntu 22.04 (JupyterLab コンテナ) uname -a で確認 Python 3.12.11 python --version CUDA Driver / Runtime 1…

vosk-unity-asrを使ってUnityでローカルの音声認識処理を行う

初めに 開発環境 実行 初めに Unityを使って音声認識をする場合、日本語の音声認識のローカルモデルはほぼないです。今回は、vosk-unity-asr (リンク先はfork版) を使って動かしてみます 開発環境 unity 6000.x.x 実行 リポジトリをcloneすると以下のように…

pythonでvosk-apiを動かす

初めに 開発環境 環境作成 実行 初めに 音声認識のローカルモデルにwhisper以外にもvosk-apiがあります。こちらを動かしていきます 日本語は以下の二つがあります。モデルは モデル一覧から確認できます モデル名 サイズ 性能 説明 ライセンス vosk-model-sm…

piperモデルからつくよみちゃんデータセットを使って追加学習を行う

初めに Demo 開発環境 前処理 事前学習モデルから 追加学習用のモデルを作成 追加学習 onnxに変換 推論 初めに 以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…

XPhoneBERTを使って文章から音素列に変換する

初めに 開発環境 環境構築 実行 初めに TTSを行う際にg2pを使うことがよくあります。今回はbertを使った音素変換モデルを試します 以下にて試したリポジトリは公開しています。 github.com 開発環境 python 3.12 cuda GPU 環境構築 pythonの環境を作り、以下…

jvs音声データセットを使ったpiper日本語モデルの作成

初めに 開発環境 データセットの準備 jvsデータセットをljspeechデータセットフォーマットに変換 学習コード及び推論コードの日本語の音素の対応 学習 推論 初めに 前回の記事でljspeechデータセットを使った英語のモデルを作成しました。今回は日本語モデル…