2025-02-01から1ヶ月間の記事一覧

OuteTTSをDockerを使ってWindowsで動かす

初めに 開発環境 Docker環境の作成 実行 初めに 以下のOuteTTSをローカル環境で動かしていきます。 github.com 以下のリポジトリに記事の内容を公開しています。 github.com 追記 ver3になり、llama.cpp(python)を使うようになっていたので、旧環境ではうご…

Music2EmotionをWindowsで動かしつつyoutubeのURLを指定で動くようにしてみる

初めに デモ 開発環境 環境構築 引数にURLを指定して実行する 初めに 音楽の感情ラベルのライブラリおよびモデルが公開されたので触っていきます github.com 公式からspaceは出ています huggingface.co デモ 以下のように youtubeのURLを指定して実行すると…

toioをクラシック音楽のMIDIデータから音楽を鳴らしながら躍らせる

初めに toioとは 開発環境 midiファイルからtoio-jsonに変換する 環境構築 midiファイルからjsonに変換 Unityでmidi-jsonからtoioを動かす セットアップ untiyからキューブに接続する toioで特定の音を再生する midi-jsonをロードする midi-jsonからtoioでク…

esnya/japanese_speecht5_ttsを動かして音声合成を行う

初めに 開発環境 環境作成 推論の準備 推論 初めに 前に英語版を動かしてみました。今回は日本語の追加学習モデルのesnya/japanese_speecht5_ttsが出ていたので,こちらを動かしていきます ayousanz.hatenadiary.jp 以下にて記事の内容をリポジトリで公開し…

microsoft/speecht5_ttsを動かして音声合成を行う

初めに 開発環境 環境作成 実行 TTS pipelineを使う方法 transformers modelling codeを使う方法 初めに 以下のTTSモデルを動かしていきます。音声とテキストの両方のデータを用いた新しい事前学習モデルです huggingface.co 以下にて記事の内容をリポジトリ…

sbintuitions/modernbert-ja-130mに追加学習をして文章からVTuberかどうかを判断する教師あり学習による2値分類モデルを作成する

初めに 開発環境 Google Colobの準備 データセットの作成 データをhuggingfaceにアップロード wandbの準備(必要なければスキップ可) 学習・評価 学習したモデルをhuggingfaceにアップロード モデルをWindowsで推論する 環境作成 推論 初めに 1週間ほど前に s…

Docker環境でJETSモデルの音声合成および学習を行う

初めに 開発環境 必要なリポジトリをclone Docker環境を作る 前処理 音声合成の実行 音声合成の結果 JETSの学習 初めに TTSのモデルの中にjetsがあります。2年ほど前のモデルなので環境構築がかなり大変だったのでDockerを使って動かせる環境を作ります 今回…

wtpsplitをwindowsで動かす

初めに 開発環境 環境作成 ライブラリのインストール 実行 初めに 以下のテキストをセグメント化するライブラリを動かしていきます github.com 記事の内容は以下のリポジトリに公開しています github.com 開発環境 Windows11 uv 環境作成 uvを使ってpython3.…

piper-without-espeakをDocker環境でローカルで動かす

AI

初めに 開発環境 実行 onnx-gpuで動かす場合 初めに TTSライブラリの一つであるpiperがあります。こちらはespeakやpiper-phonemizerに依存しているため、依存しないようにしたライブライであるpiper-without-espeakを動かしていきます。Windows環境ではイン…

ZonosをDockerからWebUIで触る

AI

初めに 開発環境 実行 初めに TTSおよびvoice cloneのモデルが出たので触ってみます。現時点では学習周りは一切できないみたいです Today, we're excited to announce a beta release of Zonos, a highly expressive TTS model with high fidelity voice clo…

HKUSTAudio/Llasa-1B-Multilingualをdockerで動かす

初めに デモ 開発環境 環境作成 実行 初めに TTSのモデルが公開されたのでローカルで多言語対応(日本語にも対応)しているモデルを動かしてみます 以下は公開されたモデル一覧です huggingface.co デモ 生成テキスト「言いなりにならなきゃいけないほど後ろめ…