2025-06-01から1ヶ月間の記事一覧
開発環境 環境構築 ラベル判定 開発環境 Windows 11 Python 3.12 cuda 12.4 環境構築 以下で環境構築をして、必要なライブラリをインストールします uv venv .\.venv\Scripts\activate uv pip install torch --index-url https://download.pytorch.org/whl/c…
初めに 開発環境 環境構築 感情の判定 初めに 以下でも音声ファイルの感情判定を行っていますが、こちらとは違うモデルを使って判定を行っていきます ayousanz.hatenadiary.jp 開発環境 Windows 11 Python 3.12 環境構築 以下で必要なライブラリをインストー…
開発環境 環境構築 実行 開発環境 Windows 11 python 3.12 cuda 12.4 環境構築 以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行 以下の…
開発環境 処理の実装 実装メモ safetensors 強制ロード 1 GPU = 1 Processで処理をする 開発環境 区分 バージョン / 詳細 備考 OS / イメージ Ubuntu 22.04 (JupyterLab コンテナ) uname -a で確認 Python 3.12.11 python --version CUDA Driver / Runtime 1…
初めに 開発環境 実行 初めに Unityを使って音声認識をする場合、日本語の音声認識のローカルモデルはほぼないです。今回は、vosk-unity-asr (リンク先はfork版) を使って動かしてみます 開発環境 unity 6000.x.x 実行 リポジトリをcloneすると以下のように…
初めに 開発環境 環境作成 実行 初めに 音声認識のローカルモデルにwhisper以外にもvosk-apiがあります。こちらを動かしていきます 日本語は以下の二つがあります。モデルは モデル一覧から確認できます モデル名 サイズ 性能 説明 ライセンス vosk-model-sm…
初めに Demo 開発環境 前処理 事前学習モデルから 追加学習用のモデルを作成 追加学習 onnxに変換 推論 初めに 以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…
初めに 開発環境 環境構築 実行 初めに TTSを行う際にg2pを使うことがよくあります。今回はbertを使った音素変換モデルを試します 以下にて試したリポジトリは公開しています。 github.com 開発環境 python 3.12 cuda GPU 環境構築 pythonの環境を作り、以下…
初めに 開発環境 データセットの準備 jvsデータセットをljspeechデータセットフォーマットに変換 学習コード及び推論コードの日本語の音素の対応 学習 推論 初めに 前回の記事でljspeechデータセットを使った英語のモデルを作成しました。今回は日本語モデル…