AI

fish-speechのFine-tuningを独自データで行う

AI

初めに 環境 docker環境の作成 音声データセットの準備 ノーマライゼーション処理 文字お越しファイルの作成 セマンティックトークンのバッチ抽出 データセットをprotobufにパック LoRAの学習 学習後のLoRAの重みを変換 学習後のモデルを使って推論 備考 初…

VITS2モデルの構造をモデルとconfig.jsonをロードして確認する

AI

開発環境 モデルの構造確認 開発環境 Windows 11 Python 3.10.11 モデルの構造確認 以下のコードでモデルの構造を確認できます テンソルのサイズ分布 重要なテンソルの形状 モデルの主要コンポーネント: レイヤーの構造: 埋め込み次元: モデルの設定情報: im…

stable-audio-toolsでstabilityai/stable-audio-open-1.0の推論を行う

AI

開発環境 準備 実行 備考 開発環境 Windows11 python 3.11 4070 ti super 準備 まずは stable-audio-toolsをcloneします 次に依存周りをインストールしていきます pip install . このままだとcudaが認識されないので、cudaに対応したライブラリのインストー…

pyannote.audioのInferenceの処理でDetails: choose a window size 400 that is [2, 251]のエラーが出る場合の対応

AI

初めに 開発環境 詳細 初めに 開発環境 Windows 11 Python 3.11 詳細 pyannote.audioのInferenceの処理で以下のエラーが出ることがあります。 Details: choose a window size 400 that is [2, 251] こちらは windowが"whole"になっていることで、"whole" オ…

pyworldを使った音声モーフィングの実装

AI

初めに Demo 開発環境 実装のアプローチ クロスフェード DTWを使ったモーフィング DTW + numbaにて高速化 初めに TTSをしている中で特定の音声同士を合わせた音声が欲しい時があります。TTSではマージがありますが、マージとは違うアプローチを考えていきま…

BigVGANをシンプルに動かす

AI

初めに 開発環境 準備 音声情報を再構築 初めに 音声からmel 情報を再構築をして再度音声に変換するライブラリ「BigVGAN」を動かしていきます。Demo用Gradioはありますが、あえて自分でコードを書いていきます github.com 開発環境 Windows 11 Python 3.11 …

UnityでRust版の形態素解析ライブラリ「Vibrato」を動かす

初めに 開発環境 UnityでRustのライブラリを動かす方法について Vibratoをプラグイン化 Unity側でVibratoを呼び出す 初めに 形態素解析で有名なものとして、Mecabがありますがより高速に動く Rust版のVibratoを以下の記事で動かしてみました。今回は、それを…

DeepPhonemizerの英語の事前学習モデルをcmudict-ipaを使って作成をする

AI

初めに 開発環境 準備 データセットの準備 学習の実行 学習したモデルで推論 初めに Transformer モデルに基づく、書記素から音素への変換ライブラリがあります。このライブラリで使用できるモデルをデータセットの整形からモデルの事前学習まで作ってみます…

ボーカル音声ファイルからボーカルのみをultimatevocalremoverguiのCLI版を使って抽出する

初めに 開発環境 ライブラリのインストール 実行 初めに 歌ってみたなどの音声ファイルからボーカルのみを抽出した場合、以下などのボーカル抽出ソフトなどで対応することができます。 github.com しかしこのソフトには、CLI版がないため CLIで動くものを探…

ハイブリッド検索アプローチ「BM42」を動かしてみる

AI

初めに 開発環境 ライブラリのインストール BM42のindexおよび検索 初めに 以下でBM25よりも精度がいいBM42が発表されたとあるので、実際に触ってみます www.atpartners.co.jp 以下の記事で、過去にBM25を動かしています。 ayousanz.hatenadiary.jp 以下で今…

検索エンジンのBM25-rankを試す

AI

開発環境 ライブラリのインストール ドキュメントから関連文の抽出 開発環境 Python 3.11 Windows 11 ライブラリのインストール 以下のドキュメントにあるようにインストールをします pip install rank_bm25 pypi.org ドキュメントから関連文の抽出 まずはい…

StableTTSでつくよみちゃんコーパスを使ってfine tuingをする

AI

初めに 環境 準備 ライブラリのインストール モデルのアップロード 音声ファイルのアップロードと学習用テキストの作成 前処理 fine tuningの実行 fine tuingモデルで推論 事前学習をする場合 初めに 以下の記事でStableTTSで推論をしてみました。今回はfine…

StableTTSで音声合成を試す

AI

初めに 環境 ライブラリのインストール モデルのアップロード WebUI画面の起動 音声合成 推論時間の計測 備考 初めに 拡散モデルのTTSで(一応)日本語対応されているライブラリの StableTTSを触っていきます github.com 環境 L4 GPU ubuntu22.04 ライブラリの…

時系列基盤amazon chronos-t5をサンプルデータでfine tuningをする

AI

初めに 環境 ライブラリのインストール データの取得と分析 データ形式の変換 推論 モデルのロード 推論実行及びグラフにプロット fine tuing ライブラリのインストール 学習用のデータの変換 参考サイト fine tuing 追加学習モデルを使った推論 初めに 過去…

Google ColobでDeepPhonemizerを使ってテキストを音素への変換をする

AI

初めに 開発環境 モデルのダウンロード ライブラリのインストール テキストから音素を取得 初めに 以下を使ってテキストから音素を取得してみます。モデルは日本語は対応していないみたいなので、英語で試します github.com 開発環境 Google Colob (Free) モ…

xvector_jtubespeechを使って日本語音声のxベクトル抽出器を行う

AI

初めに 開発環境 準備 モデルのダウンロード サンプル音声のアップロード x-vectorの実行 初めに 日本語の音声の話者表現ベクトルを抽出できるライブラリおよびモデルが公開されたので、使ってみます。この記事では、ReadMe + サンプリング変換コードのみに…

Google Colabで時系列基盤モデルのGoogle timesfmを試す

AI

初めに 開発環境 ライブラリのインストール データのダウンロードおよび整理 モデルのロード 推論 各種ライブラリのver 初めに 時系列基盤モデルでどんなことができるのか気になったので、以下の記事を実際に試してみます note.com 開発環境 Google Colob T4…

GoogleColobでstabilityai/stable-audio-open-1.0を動かす

AI

初めに 開発環境 ライブラリのインストール シークレットトークンの設定 モデルのロードおよび生成 初めに Audio生成でかなり精度が高いモデルが出たので触ってみます huggingface.co 開発環境 Google Colob T4(Free) ライブラリのインストール # 必要なパッ…

TransformersのOptimumを使ってモデルをonnxに変換する

AI

開発環境 準備 モデルの変換 開発環境 Ubutntu 22.02 準備 まずは以下のライブラリをインストールします python -m pip install optimum モデルの変換 例として、cyberagent/open-calm-smallを変してみます。 変換する際には、以下のコマンドで変換すること…

NVidia MAXINE AFX SDKを使って音声のノイズ除去をする

AI

初めに 環境 準備 実行 NVIDIA Broadcastとの比較 参考記事 初めに 音声のノイズ除去はいろいろ方法がありますが、MAXINE-AFX-SDKを試していきます 環境 Windows 11 準備 まずは以下でライブラリをcloneしてきます git clone https://github.com/NVIDIA/MAXI…

GoogleColobでstabilityai/japanese-stablelm-2-instruct-1_6bを動かす

AI

初めに 環境 準備 モデルのロード 推論 初めに Stability AIから新しいLLMモデルが出たので試していきます。 日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしましたJapanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日…

Unity Sentisを使ってonnxでデバイスのみで動くSTTを実装する

初めに Demo 開発環境 ライブラリの準備 モデルの設定 スクリプトと音声の設定 実行 初めに 以下のモデルを触ってみます huggingface.co Demo 以下のように動作します!動画内の音声は、huggingfaceに含まれているサンプル音声になります www.youtube.com ま…

Unity Sentisを使ってonnxでデバイスのみで動くLLMを実装する

初めに Demo 開発環境 ライブラリのインストール モデルのダウンロード モデルとスクリプトのUnityへの配置 Unity側でLLMの実行 初めに Unityが Unity Sentisで動く phi 1.5のONNXのモデルを公開しているので、こちらを動かしていきます huggingface.co (注)…

Unity Sentisを使ってonnxでデバイスのみで動くTTSを実装する

初めに Demo 開発環境 ライブラリのインストール モデルの設定 スクリプトの設定 TTSの実行と再生 初めに UnityがUnitySentisを使ってTTSを実装できるようなサンプル?モデルを公開しているので、動かしていきます huggingface.co Demo デモでは、文字を入力…

Ubuntu 22.02の開発環境構築手順

AI

初めに 開発環境 詳細 現状の確認 システムの最新化 NVIDEA ドライバーのインストール CUDA toolkitのインストール システムの再起動 パスの追加 cuda toolkitの確認 初めに 開発環境 Ubuntu 22.02 詳細 現状の確認 lspci | grep -i nvidia システムの最新化…

bertモデルを使ってlivedoorニュースの分類をする

AI

初めに 環境 準備 ライブラリのインストール データの取得と整理 モデルの学習 モデルの評価 モデルの保存とhuggingfaceへのアップロード 追加学習をしたモデルを使って分類 初めに 色々LLMを触ってきて、ちゃんと?bertを触ったことがないので以下の記事を自…

huggingfaceのCacheパスを変更する

AI

開発環境 詳細 開発環境 Windows 11 詳細 以下を参考に参照するパスを変更します。ターミナルを立ち上げるごとに設定する必要があります huggingface.co $env:HF_DATASETS_CACHE = "full path"

ESPNet2を使った音声とテキストのアライメント処理

AI

開発環境 ライブラリのインストール アライメント処理 開発環境 Ubuntu 22.02 Python 3.10 ライブラリのインストール 以下で必要なライブラリを入れます pip install soundfile espnet_model_zoo torch sudo pip install soundfile espnet_model_zoo torch …

KenLMで日本語文章の品質の評価

AI

初めに 開発環境 環境構築 評価コード 結果 sentencepieceを使った場合 参考サイト 初めに 以下でLLMを使って文章の評価をしていますが、速度が速いと言われるKenLMでも評価してみます ayousanz.hatenadiary.jp 開発環境 Ubuntu22.02 環境構築 sudo apt inst…

複数のLLMのPerplexityの精度を比較して、文章の自然さを判定を試す

AI

初めに 環境 準備 比較対象のモデル 対象のデータ 複数のモデルでPerplexityの値を取得 結果 初めに 環境 L4 GPU ubuntu22.04 準備 ライブラリをインストールします pip install torch transformers huggingface_hub 比較対象のモデル stabilityai/StableBel…