Python
初めに 開発環境 環境構築 実行 他の文字検索ライブラリとの比較 相対速度(pyahocorasick = 1.0として) キーワード数と性能の関係 技術選定について 初めに 値の関連付けが必要で高速に文字列を検索したい時に使えるらしいpyahocorasickを触ってみます git…
初めに 開発環境 環境構築 実行 初めに アニメ顔(イラスト画像や動画、Live2D)などからランドマーク検出を取得する場合、最新の環境でもanime-face-detector は精度がよく候補に挙がってきます。ただしオリジナルのリポジトリでは、ライブラリ依存などで動か…
初めに 開発環境 問題 解決策 備考 初めに Windows環境でFlash Attentionがuv経由でインストールできなかったのでそのときの対応方法です 開発環境 Windows 11 uv 0.9.x python 3.10 問題 はじめに以下でインストールを試みましたが、以下のエラーが出ました…
初めに 開発環境 環境構築 APIトークンの発行 Pythonで実行 初めに さくらインターネットが新しくOSSのLLM等をGPUにホスティングして無料枠を提供しています。 www.sakura.ad.jp 無料枠と料金は以下のようになっています 各種APIドキュメントは以下です manu…
初めに 開発環境 環境構築 コードから推論を実行 初めに 先日以下のようなライブラリを発表しました 【新作OSSを一挙3本公開!】音声合成・Unity・デスクトップアプリの領域で、3つのオープンソースプロジェクトを公開しました!piper-plus: 高速・軽量な日…
バージョン形式の構造 正規化のルール 開発リリース(.dev) ポストリリース(.post) プレリリース 有効なバージョンの例 以下のドキュメントをわかりやすくメモとして記載します packaging.python.org バージョン形式の構造 正規形式: [N!]N(.N)*[{a|b|rc}…
初めに 開発環境 環境構築 透かしを入れる 透かしの判定 初めに 音声合成の技術によってどの声が本物なのか、許可されたものかのかが分からくなってきます。そこで音声に透かしなどの技術が出てきていますが、その中のPerthを試してみます github.com 開発環…
初めに 開発環境 環境構築 判定の実行 初めに いままで試してきた感情の判定は、音声データもしくはテキストデータの片方から判定を行っていました。 今回はマルチモーダルを用いて両方のデータから判定を行っていきます 開発環境 Windows 11 python 3.12 環…
開発環境 環境構築 ラベル判定 開発環境 Windows 11 Python 3.12 cuda 12.4 環境構築 以下で環境構築をして、必要なライブラリをインストールします uv venv .\.venv\Scripts\activate uv pip install torch --index-url https://download.pytorch.org/whl/c…
初めに 開発環境 環境構築 感情の判定 初めに 以下でも音声ファイルの感情判定を行っていますが、こちらとは違うモデルを使って判定を行っていきます ayousanz.hatenadiary.jp 開発環境 Windows 11 Python 3.12 環境構築 以下で必要なライブラリをインストー…
開発環境 環境構築 実行 開発環境 Windows 11 python 3.12 cuda 12.4 環境構築 以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行 以下の…
開発環境 処理の実装 実装メモ safetensors 強制ロード 1 GPU = 1 Processで処理をする 開発環境 区分 バージョン / 詳細 備考 OS / イメージ Ubuntu 22.04 (JupyterLab コンテナ) uname -a で確認 Python 3.12.11 python --version CUDA Driver / Runtime 1…
初めに Demo 開発環境 前処理 事前学習モデルから 追加学習用のモデルを作成 追加学習 onnxに変換 推論 初めに 以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…
初めに 開発環境 環境構築 実行 初めに TTSを行う際にg2pを使うことがよくあります。今回はbertを使った音素変換モデルを試します 以下にて試したリポジトリは公開しています。 github.com 開発環境 python 3.12 cuda GPU 環境構築 pythonの環境を作り、以下…
初めに 開発環境 データセットの準備 jvsデータセットをljspeechデータセットフォーマットに変換 学習コード及び推論コードの日本語の音素の対応 学習 推論 初めに 前回の記事でljspeechデータセットを使った英語のモデルを作成しました。今回は日本語モデル…
Demo 開発環境 環境の構築 データセットの準備 前処理・ログ用のフォルダの作成 前処理の実行 事前学習の開始 モデルをonnxに変換 学習したモデルから推論 Demo 学習したモデルは以下で公開しています huggingface.co 生成した音声は以下のようになります yo…
初めに 開発環境 セットアップ APIを実行する 初めに 先日 Live Search APIが使えるようになったので、こちらを動かしてみます Attention devs: the xAI API just got A LOT smarter.With Live Search, Grok can now search through realtime data from 𝕏, t…
初めに 開発環境 環境構築 使用できるモデルの取得 CLIからボーカルを抽出 Pythonから実行 初めに 以下で歌声の音源からボーカルを抽出していました ayousanz.hatenadiary.jp 改めて調査するとより多くのモデルと精度の高いモデルが選べるのものがあり、ロー…
初めに 開発環境 環境構築 音声データの取得 speaker-emb-ja-ecapa-tdnnを使って音声類似度比較を行う 初めに 以下の記事で Resemblyzerを使って似ている歌声を探してみました。今回は 別のモデルを使ってみます ayousanz.hatenadiary.jp 開発環境 python 3.…
初めに 開発環境 歌声ボーカルデータの取得 埋め込みモデルを使って指定した歌声から近いボーカスを取得 初めに ある声とある声がどのくらい似ているかを測るための方法はいくつかありますが、今回は Resemblyzer の埋め込みモデルを使ってみます 開発環境 P…
初めに 開発環境 環境構築 話者を指定して音声合成 初めに モデルのサイズが軽量で動かせる kokoroがあります。こちらをpythonの環境で動かしていきます テストプロジェクトは以下で公開しています github.com 開発環境 Windows 11 Python 3.11 環境構築 ま…
開発環境 環境の作成 DataAPIを使った再生リストを取得 開発環境 python 3.21 環境の作成 uvで環境を作成します uv venv -p 3.12 .venv\Scripts\activate 次に必要なライブラリをインストールします。 uv pip install --upgrade google-api-python-client Da…
初めに 開発環境 セットアップ 譜面データの作成 jsonに変換 初めに 音ゲーでは譜面データの作成が必須になっています。このときに使われる susの形式では、人が見るのには厳しいため別の形に変換する必要があります。今回は sus-ioを使ってsusファイルからj…
初めに 開発環境 Docker環境の作成 実行 初めに 以下のOuteTTSをローカル環境で動かしていきます。 github.com 以下のリポジトリに記事の内容を公開しています。 github.com 追記 ver3になり、llama.cpp(python)を使うようになっていたので、旧環境ではうご…
初めに デモ 開発環境 環境構築 引数にURLを指定して実行する 初めに 音楽の感情ラベルのライブラリおよびモデルが公開されたので触っていきます github.com 公式からspaceは出ています huggingface.co デモ 以下のように youtubeのURLを指定して実行すると…
初めに toioとは 開発環境 midiファイルからtoio-jsonに変換する 環境構築 midiファイルからjsonに変換 Unityでmidi-jsonからtoioを動かす セットアップ untiyからキューブに接続する toioで特定の音を再生する midi-jsonをロードする midi-jsonからtoioでク…
初めに 開発環境 環境作成 推論の準備 推論 初めに 前に英語版を動かしてみました。今回は日本語の追加学習モデルのesnya/japanese_speecht5_ttsが出ていたので,こちらを動かしていきます ayousanz.hatenadiary.jp 以下にて記事の内容をリポジトリで公開し…
初めに 開発環境 環境作成 実行 TTS pipelineを使う方法 transformers modelling codeを使う方法 初めに 以下のTTSモデルを動かしていきます。音声とテキストの両方のデータを用いた新しい事前学習モデルです huggingface.co 以下にて記事の内容をリポジトリ…
初めに 開発環境 Google Colobの準備 データセットの作成 データをhuggingfaceにアップロード wandbの準備(必要なければスキップ可) 学習・評価 学習したモデルをhuggingfaceにアップロード モデルをWindowsで推論する 環境作成 推論 初めに 1週間ほど前に s…
初めに 開発環境 必要なリポジトリをclone Docker環境を作る 前処理 音声合成の実行 音声合成の結果 JETSの学習 初めに TTSのモデルの中にjetsがあります。2年ほど前のモデルなので環境構築がかなり大変だったのでDockerを使って動かせる環境を作ります 今回…