2024-01-01から1年間の記事一覧
初めに 環境 docker環境の作成 音声データセットの準備 ノーマライゼーション処理 文字お越しファイルの作成 セマンティックトークンのバッチ抽出 データセットをprotobufにパック LoRAの学習 学習後のLoRAの重みを変換 学習後のモデルを使って推論 備考 初…
開発環境 モデルの構造確認 開発環境 Windows 11 Python 3.10.11 モデルの構造確認 以下のコードでモデルの構造を確認できます テンソルのサイズ分布 重要なテンソルの形状 モデルの主要コンポーネント: レイヤーの構造: 埋め込み次元: モデルの設定情報: im…
開発環境 準備 実行 備考 開発環境 Windows11 python 3.11 4070 ti super 準備 まずは stable-audio-toolsをcloneします 次に依存周りをインストールしていきます pip install . このままだとcudaが認識されないので、cudaに対応したライブラリのインストー…
初めに 開発環境 詳細 初めに 開発環境 Windows 11 Python 3.11 詳細 pyannote.audioのInferenceの処理で以下のエラーが出ることがあります。 Details: choose a window size 400 that is [2, 251] こちらは windowが"whole"になっていることで、"whole" オ…
初めに Demo 開発環境 実装のアプローチ クロスフェード DTWを使ったモーフィング DTW + numbaにて高速化 初めに TTSをしている中で特定の音声同士を合わせた音声が欲しい時があります。TTSではマージがありますが、マージとは違うアプローチを考えていきま…
初めに 開発環境 準備 音声情報を再構築 初めに 音声からmel 情報を再構築をして再度音声に変換するライブラリ「BigVGAN」を動かしていきます。Demo用Gradioはありますが、あえて自分でコードを書いていきます github.com 開発環境 Windows 11 Python 3.11 …
初めに 開発環境 UnityでRustのライブラリを動かす方法について Vibratoをプラグイン化 Unity側でVibratoを呼び出す 初めに 形態素解析で有名なものとして、Mecabがありますがより高速に動く Rust版のVibratoを以下の記事で動かしてみました。今回は、それを…
初めに Demo 開発環境 Vibrato専用の辞書ファイルをダウンロード Rustのプロジェクトの作成 Vibratoを動かす 初めに より速い形態素解析ライブラリを探していて,Mecab(および高速化)や jaggerよりも速いと言われている vibratoを触ってみます。 Demo 本とカ…
MacにRustをインストールする Permissionのエラー対応 MacにRustをインストールする まず MacにRustがインストールされていることを確認します 以下のコマンドで 各種verがインストールされいれば問題ないため,次に進んでください rustc --version インスト…
初めに 開発環境 準備 データセットの準備 学習の実行 学習したモデルで推論 初めに Transformer モデルに基づく、書記素から音素への変換ライブラリがあります。このライブラリで使用できるモデルをデータセットの整形からモデルの事前学習まで作ってみます…
開発環境 ライブラリのインストール 動画および再生リストのダウンロード 開発環境 Windows 11 Python 3.11 ライブラリのインストール 以下でライブラリのインストールできます pip install yt-dlp 動画および再生リストのダウンロード まずは単体の動画のダ…
初めに 開発環境 ライブラリのインストール 実行 初めに 歌ってみたなどの音声ファイルからボーカルのみを抽出した場合、以下などのボーカル抽出ソフトなどで対応することができます。 github.com しかしこのソフトには、CLI版がないため CLIで動くものを探…
初めに 開発環境 ライブラリのインストール BM42のindexおよび検索 初めに 以下でBM25よりも精度がいいBM42が発表されたとあるので、実際に触ってみます www.atpartners.co.jp 以下の記事で、過去にBM25を動かしています。 ayousanz.hatenadiary.jp 以下で今…
開発環境 ライブラリのインストール ドキュメントから関連文の抽出 開発環境 Python 3.11 Windows 11 ライブラリのインストール 以下のドキュメントにあるようにインストールをします pip install rank_bm25 pypi.org ドキュメントから関連文の抽出 まずはい…
開発環境 ライブラリのインストール 7zファイルの解凍 開発環境 Ubuntu 22.02 ライブラリのインストール 以下で7zの解凍するためのライブラリを入れます sudo apt-get install p7zip-full 7zファイルの解凍 以下でフォルダ内にある7zファイルを解凍します fo…
初めに 開発環境 SDKのインストール Unity プラグインのダウンロード ディスプレイの設定 初めに ELF-2を触らせていただく機会があったので、とりあえずセットアップ方法をまとめます 開発環境 Windows 11 SDKのインストール 以下から開発用のSDKをインスト…
初めに 環境 準備 ライブラリのインストール モデルのアップロード 音声ファイルのアップロードと学習用テキストの作成 前処理 fine tuningの実行 fine tuingモデルで推論 事前学習をする場合 初めに 以下の記事でStableTTSで推論をしてみました。今回はfine…
初めに 環境 ライブラリのインストール モデルのアップロード WebUI画面の起動 音声合成 推論時間の計測 備考 初めに 拡散モデルのTTSで(一応)日本語対応されているライブラリの StableTTSを触っていきます github.com 環境 L4 GPU ubuntu22.04 ライブラリの…
初めに 環境 ライブラリのインストール データの取得と分析 データ形式の変換 推論 モデルのロード 推論実行及びグラフにプロット fine tuing ライブラリのインストール 学習用のデータの変換 参考サイト fine tuing 追加学習モデルを使った推論 初めに 過去…
初めに 開発環境 モデルのダウンロード ライブラリのインストール テキストから音素を取得 初めに 以下を使ってテキストから音素を取得してみます。モデルは日本語は対応していないみたいなので、英語で試します github.com 開発環境 Google Colob (Free) モ…
開発環境 コード 開発環境 Google Colob コード # ffmpegのインストール !apt-get install ffmpeg # チャンネル数の確認 !ffprobe -i file_name -show_streams -select_streams a:0 -loglevel error | grep channels 以下のように出力されます channels=1
開発環境 音の解析 特定の周波数のみの音にする 開発環境 Google Colob T4(Free) 音の解析 以下で sample.wav に対する周波数別の解析をします import numpy as np import matplotlib.pyplot as plt import japanize_matplotlib from scipy.io import wavfil…
初めに 開発環境 準備 モデルのダウンロード サンプル音声のアップロード x-vectorの実行 初めに 日本語の音声の話者表現ベクトルを抽出できるライブラリおよびモデルが公開されたので、使ってみます。この記事では、ReadMe + サンプリング変換コードのみに…
初めに 開発環境 ライブラリのインストール データのダウンロードおよび整理 モデルのロード 推論 各種ライブラリのver 初めに 時系列基盤モデルでどんなことができるのか気になったので、以下の記事を実際に試してみます note.com 開発環境 Google Colob T4…
初めに 開発環境 ライブラリのインストール シークレットトークンの設定 モデルのロードおよび生成 初めに Audio生成でかなり精度が高いモデルが出たので触ってみます huggingface.co 開発環境 Google Colob T4(Free) ライブラリのインストール # 必要なパッ…
初めに 開発環境 Animationにイベントを追加 アニメーションクリップのyamlの確認 アニメーションイベントのyaml定義の確認 任意の時間にイベントを追加 参考サイト 初めに UnityでAnimation Clipを使ってアニメーションを制御することはよくあります。しか…
初めに 開発環境 アプローチの方針 ライブラリのインストール k-means法 デモ コード DBSCAN法 デモ コード GMM法 デモ コード 初めに ある画像から近い色同士で色をまとめてほしい時があります。この際に使用できる画像処理やクラスタリングの手法を試して…
初めに 開発環境 エラー詳細 解決方法 参考記事 初めに AI周りの学習でtorchを使うことがありますが、cudannのエラーによって学習が始めらない問題にぶつかったので解決方法をメモしておきます 開発環境 GCP torch version : 2.3.0+cu121 cuda 12.1 Python 3…
開発環境 詳細 開発環境 Windows 11 Python 3.11.7 詳細 以下のコードで指定したディレクトリ内のwavファイルのパスを一覧にしたテキストファイルが出力されます # 指定したディレクトリ内のすべてのファイルのパスを再帰的に取得し、txtファイルに保存する…
開発環境 準備 モデルの変換 開発環境 Ubutntu 22.02 準備 まずは以下のライブラリをインストールします python -m pip install optimum モデルの変換 例として、cyberagent/open-calm-smallを変してみます。 変換する際には、以下のコマンドで変換すること…