Python

Aho-Corasickアルゴリズムを使用した高速でメモリ効率の良い複数パターン文字列検索ライブラリ「pyahocorasick」を動かして速度比較を行う

初めに 開発環境 環境構築 実行 他の文字検索ライブラリとの比較 相対速度(pyahocorasick = 1.0として) キーワード数と性能の関係 技術選定について 初めに 値の関連付けが必要で高速に文字列を検索したい時に使えるらしいpyahocorasickを触ってみます git…

anime-face-detectorを使ってアニメ顔の検出およびランドマーク検出を行う

初めに 開発環境 環境構築 実行 初めに アニメ顔(イラスト画像や動画、Live2D)などからランドマーク検出を取得する場合、最新の環境でもanime-face-detector は精度がよく候補に挙がってきます。ただしオリジナルのリポジトリでは、ライブラリ依存などで動か…

WindowsのuvでFlash Attentionをwheelからインストールする

初めに 開発環境 問題 解決策 備考 初めに Windows環境でFlash Attentionがuv経由でインストールできなかったのでそのときの対応方法です 開発環境 Windows 11 uv 0.9.x python 3.10 問題 はじめに以下でインストールを試みましたが、以下のエラーが出ました…

さくらのAI Engineでgpt-oss-120bをpythonで実行する

初めに 開発環境 環境構築 APIトークンの発行 Pythonで実行 初めに さくらインターネットが新しくOSSのLLM等をGPUにホスティングして無料枠を提供しています。 www.sakura.ad.jp 無料枠と料金は以下のようになっています 各種APIドキュメントは以下です manu…

日本語対応の軽量TTSライブラリ「piper-plus」をPythonで動かす

初めに 開発環境 環境構築 コードから推論を実行 初めに 先日以下のようなライブラリを発表しました 【新作OSSを一挙3本公開!】音声合成・Unity・デスクトップアプリの領域で、3つのオープンソースプロジェクトを公開しました!piper-plus: 高速・軽量な日…

pypiにリリースするときのversionルールについて

バージョン形式の構造 正規化のルール 開発リリース(.dev) ポストリリース(.post) プレリリース 有効なバージョンの例 以下のドキュメントをわかりやすくメモとして記載します packaging.python.org バージョン形式の構造 正規形式: [N!]N(.N)*[{a|b|rc}…

Perthを使って音声透かしと検出を行う

初めに 開発環境 環境構築 透かしを入れる 透かしの判定 初めに 音声合成の技術によってどの声が本物なのか、許可されたものかのかが分からくなってきます。そこで音声に透かしなどの技術が出てきていますが、その中のPerthを試してみます github.com 開発環…

Qwen2-Audio-7B-Instructで音声とテキストから感情を判定する

初めに 開発環境 環境構築 判定の実行 初めに いままで試してきた感情の判定は、音声データもしくはテキストデータの片方から判定を行っていました。 今回はマルチモーダルを用いて両方のデータから判定を行っていきます 開発環境 Windows 11 python 3.12 環…

YoichiTakenaka/deverta-v3-japanese-large-Anticipationでテキストの感情を判定する

開発環境 環境構築 ラベル判定 開発環境 Windows 11 Python 3.12 cuda 12.4 環境構築 以下で環境構築をして、必要なライブラリをインストールします uv venv .\.venv\Scripts\activate uv pip install torch --index-url https://download.pytorch.org/whl/c…

litagin/anime_speech_emotion_classificationを使って音声の感情を判定する

初めに 開発環境 環境構築 感情の判定 初めに 以下でも音声ファイルの感情判定を行っていますが、こちらとは違うモデルを使って判定を行っていきます ayousanz.hatenadiary.jp 開発環境 Windows 11 Python 3.12 環境構築 以下で必要なライブラリをインストー…

FunAudioLLM/SenseVoiceSmallを使って音声の感情を判定する

開発環境 環境構築 実行 開発環境 Windows 11 python 3.12 cuda 12.4 環境構築 以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行 以下の…

UTMOS-v2 による音質推定値(MOS)をGPUの同時並列で高速に処理を行う

開発環境 処理の実装 実装メモ safetensors 強制ロード 1 GPU = 1 Processで処理をする 開発環境 区分 バージョン / 詳細 備考 OS / イメージ Ubuntu 22.04 (JupyterLab コンテナ) uname -a で確認 Python 3.12.11 python --version CUDA Driver / Runtime 1…

piperモデルからつくよみちゃんデータセットを使って追加学習を行う

初めに Demo 開発環境 前処理 事前学習モデルから 追加学習用のモデルを作成 追加学習 onnxに変換 推論 初めに 以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…

XPhoneBERTを使って文章から音素列に変換する

初めに 開発環境 環境構築 実行 初めに TTSを行う際にg2pを使うことがよくあります。今回はbertを使った音素変換モデルを試します 以下にて試したリポジトリは公開しています。 github.com 開発環境 python 3.12 cuda GPU 環境構築 pythonの環境を作り、以下…

jvs音声データセットを使ったpiper日本語モデルの作成

初めに 開発環境 データセットの準備 jvsデータセットをljspeechデータセットフォーマットに変換 学習コード及び推論コードの日本語の音素の対応 学習 推論 初めに 前回の記事でljspeechデータセットを使った英語のモデルを作成しました。今回は日本語モデル…

LJSpeechを使って英語のpiperの事前学習モデルを作成する

Demo 開発環境 環境の構築 データセットの準備 前処理・ログ用のフォルダの作成 前処理の実行 事前学習の開始 モデルをonnxに変換 学習したモデルから推論 Demo 学習したモデルは以下で公開しています huggingface.co 生成した音声は以下のようになります yo…

PythonでXのLive Search APIを実行して検索してみる

初めに 開発環境 セットアップ APIを実行する 初めに 先日 Live Search APIが使えるようになったので、こちらを動かしてみます Attention devs: the xAI API just got A LOT smarter.With Live Search, Grok can now search through realtime data from 𝕏, t…

python-audio-separatorで歌声のボーカルを抽出する

初めに 開発環境 環境構築 使用できるモデルの取得 CLIからボーカルを抽出 Pythonから実行 初めに 以下で歌声の音源からボーカルを抽出していました ayousanz.hatenadiary.jp 改めて調査するとより多くのモデルと精度の高いモデルが選べるのものがあり、ロー…

k-washi/speaker-emb-ja-ecapa-tdnnを使って似ている歌声ボーカルを探す

初めに 開発環境 環境構築 音声データの取得 speaker-emb-ja-ecapa-tdnnを使って音声類似度比較を行う 初めに 以下の記事で Resemblyzerを使って似ている歌声を探してみました。今回は 別のモデルを使ってみます ayousanz.hatenadiary.jp 開発環境 python 3.…

Resemblyzerを使って歌声ボーカルが近い音声を探す

初めに 開発環境 歌声ボーカルデータの取得 埋め込みモデルを使って指定した歌声から近いボーカスを取得 初めに ある声とある声がどのくらい似ているかを測るための方法はいくつかありますが、今回は Resemblyzer の埋め込みモデルを使ってみます 開発環境 P…

Windowsでkokoro TTSを動かす

初めに 開発環境 環境構築 話者を指定して音声合成 初めに モデルのサイズが軽量で動かせる kokoroがあります。こちらをpythonの環境で動かしていきます テストプロジェクトは以下で公開しています github.com 開発環境 Windows 11 Python 3.11 環境構築 ま…

youtubeDataAPIでキーワードから関連する再生リストを取得する

開発環境 環境の作成 DataAPIを使った再生リストを取得 開発環境 python 3.21 環境の作成 uvで環境を作成します uv venv -p 3.12 .venv\Scripts\activate 次に必要なライブラリをインストールします。 uv pip install --upgrade google-api-python-client Da…

sus-ioを使ってsus形式の譜面データをjsonデータに変換する

初めに 開発環境 セットアップ 譜面データの作成 jsonに変換 初めに 音ゲーでは譜面データの作成が必須になっています。このときに使われる susの形式では、人が見るのには厳しいため別の形に変換する必要があります。今回は sus-ioを使ってsusファイルからj…

OuteTTSをDockerを使ってWindowsで動かす

初めに 開発環境 Docker環境の作成 実行 初めに 以下のOuteTTSをローカル環境で動かしていきます。 github.com 以下のリポジトリに記事の内容を公開しています。 github.com 追記 ver3になり、llama.cpp(python)を使うようになっていたので、旧環境ではうご…

Music2EmotionをWindowsで動かしつつyoutubeのURLを指定で動くようにしてみる

初めに デモ 開発環境 環境構築 引数にURLを指定して実行する 初めに 音楽の感情ラベルのライブラリおよびモデルが公開されたので触っていきます github.com 公式からspaceは出ています huggingface.co デモ 以下のように youtubeのURLを指定して実行すると…

toioをクラシック音楽のMIDIデータから音楽を鳴らしながら躍らせる

初めに toioとは 開発環境 midiファイルからtoio-jsonに変換する 環境構築 midiファイルからjsonに変換 Unityでmidi-jsonからtoioを動かす セットアップ untiyからキューブに接続する toioで特定の音を再生する midi-jsonをロードする midi-jsonからtoioでク…

esnya/japanese_speecht5_ttsを動かして音声合成を行う

初めに 開発環境 環境作成 推論の準備 推論 初めに 前に英語版を動かしてみました。今回は日本語の追加学習モデルのesnya/japanese_speecht5_ttsが出ていたので,こちらを動かしていきます ayousanz.hatenadiary.jp 以下にて記事の内容をリポジトリで公開し…

microsoft/speecht5_ttsを動かして音声合成を行う

初めに 開発環境 環境作成 実行 TTS pipelineを使う方法 transformers modelling codeを使う方法 初めに 以下のTTSモデルを動かしていきます。音声とテキストの両方のデータを用いた新しい事前学習モデルです huggingface.co 以下にて記事の内容をリポジトリ…

sbintuitions/modernbert-ja-130mに追加学習をして文章からVTuberかどうかを判断する教師あり学習による2値分類モデルを作成する

初めに 開発環境 Google Colobの準備 データセットの作成 データをhuggingfaceにアップロード wandbの準備(必要なければスキップ可) 学習・評価 学習したモデルをhuggingfaceにアップロード モデルをWindowsで推論する 環境作成 推論 初めに 1週間ほど前に s…

Docker環境でJETSモデルの音声合成および学習を行う

初めに 開発環境 必要なリポジトリをclone Docker環境を作る 前処理 音声合成の実行 音声合成の結果 JETSの学習 初めに TTSのモデルの中にjetsがあります。2年ほど前のモデルなので環境構築がかなり大変だったのでDockerを使って動かせる環境を作ります 今回…