yousanのメモ

2025-06-01から1ヶ月間の記事一覧

YoichiTakenaka/deverta-v3-japanese-large-Anticipationでテキストの感情を判定する

AI Python

開発環境環境構築ラベル判定開発環境 Windows 11 Python 3.12 cuda 12.4 環境構築以下で環境構築をして、必要なライブラリをインストールします uv venv .\.venv\Scripts\activate uv pip install torch --index-url https://download.pytorch.org/whl/c…

litagin/anime_speech_emotion_classificationを使って音声の感情を判定する

AI Python

初めに開発環境環境構築感情の判定初めに以下でも音声ファイルの感情判定を行っていますが、こちらとは違うモデルを使って判定を行っていきます ayousanz.hatenadiary.jp 開発環境 Windows 11 Python 3.12 環境構築以下で必要なライブラリをインストー…

FunAudioLLM/SenseVoiceSmallを使って音声の感情を判定する

AI Python

開発環境環境構築実行開発環境 Windows 11 python 3.12 cuda 12.4 環境構築以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行以下の…

UTMOS-v2 による音質推定値（MOS）をGPUの同時並列で高速に処理を行う

Python

開発環境処理の実装実装メモ safetensors 強制ロード 1 GPU = 1 Processで処理をする開発環境区分バージョン / 詳細備考 OS / イメージ Ubuntu 22.04 (JupyterLab コンテナ) uname -a で確認 Python 3.12.11 python --version CUDA Driver / Runtime 1…

vosk-unity-asrを使ってUnityでローカルの音声認識処理を行う

Unity AI

初めに開発環境実行初めに Unityを使って音声認識をする場合、日本語の音声認識のローカルモデルはほぼないです。今回は、vosk-unity-asr (リンク先はfork版) を使って動かしてみます開発環境 unity 6000.x.x 実行リポジトリをcloneすると以下のように…

pythonでvosk-apiを動かす

初めに開発環境環境作成実行初めに音声認識のローカルモデルにwhisper以外にもvosk-apiがあります。こちらを動かしていきます日本語は以下の二つがあります。モデルはモデル一覧から確認できますモデル名サイズ性能説明ライセンス vosk-model-sm…

piperモデルからつくよみちゃんデータセットを使って追加学習を行う

AI Python

初めに Demo 開発環境前処理事前学習モデルから追加学習用のモデルを作成追加学習 onnxに変換推論初めに以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…

XPhoneBERTを使って文章から音素列に変換する

AI Python

初めに開発環境環境構築実行初めに TTSを行う際にg2pを使うことがよくあります。今回はbertを使った音素変換モデルを試します以下にて試したリポジトリは公開しています。 github.com 開発環境 python 3.12 cuda GPU 環境構築 pythonの環境を作り、以下…

jvs音声データセットを使ったpiper日本語モデルの作成

AI Python

初めに開発環境データセットの準備 jvsデータセットをljspeechデータセットフォーマットに変換学習コード及び推論コードの日本語の音素の対応学習推論初めに前回の記事でljspeechデータセットを使った英語のモデルを作成しました。今回は日本語モデル…