2025-02-01から1ヶ月間の記事一覧
初めに 開発環境 Docker環境の作成 実行 初めに 以下のOuteTTSをローカル環境で動かしていきます。 github.com 以下のリポジトリに記事の内容を公開しています。 github.com 追記 ver3になり、llama.cpp(python)を使うようになっていたので、旧環境ではうご…
初めに デモ 開発環境 環境構築 引数にURLを指定して実行する 初めに 音楽の感情ラベルのライブラリおよびモデルが公開されたので触っていきます github.com 公式からspaceは出ています huggingface.co デモ 以下のように youtubeのURLを指定して実行すると…
初めに toioとは 開発環境 midiファイルからtoio-jsonに変換する 環境構築 midiファイルからjsonに変換 Unityでmidi-jsonからtoioを動かす セットアップ untiyからキューブに接続する toioで特定の音を再生する midi-jsonをロードする midi-jsonからtoioでク…
初めに 開発環境 環境作成 推論の準備 推論 初めに 前に英語版を動かしてみました。今回は日本語の追加学習モデルのesnya/japanese_speecht5_ttsが出ていたので,こちらを動かしていきます ayousanz.hatenadiary.jp 以下にて記事の内容をリポジトリで公開し…
初めに 開発環境 環境作成 実行 TTS pipelineを使う方法 transformers modelling codeを使う方法 初めに 以下のTTSモデルを動かしていきます。音声とテキストの両方のデータを用いた新しい事前学習モデルです huggingface.co 以下にて記事の内容をリポジトリ…
初めに 開発環境 Google Colobの準備 データセットの作成 データをhuggingfaceにアップロード wandbの準備(必要なければスキップ可) 学習・評価 学習したモデルをhuggingfaceにアップロード モデルをWindowsで推論する 環境作成 推論 初めに 1週間ほど前に s…
初めに 開発環境 必要なリポジトリをclone Docker環境を作る 前処理 音声合成の実行 音声合成の結果 JETSの学習 初めに TTSのモデルの中にjetsがあります。2年ほど前のモデルなので環境構築がかなり大変だったのでDockerを使って動かせる環境を作ります 今回…
初めに 開発環境 環境作成 ライブラリのインストール 実行 初めに 以下のテキストをセグメント化するライブラリを動かしていきます github.com 記事の内容は以下のリポジトリに公開しています github.com 開発環境 Windows11 uv 環境作成 uvを使ってpython3.…
初めに 開発環境 実行 onnx-gpuで動かす場合 初めに TTSライブラリの一つであるpiperがあります。こちらはespeakやpiper-phonemizerに依存しているため、依存しないようにしたライブライであるpiper-without-espeakを動かしていきます。Windows環境ではイン…
初めに 開発環境 実行 初めに TTSおよびvoice cloneのモデルが出たので触ってみます。現時点では学習周りは一切できないみたいです Today, we're excited to announce a beta release of Zonos, a highly expressive TTS model with high fidelity voice clo…
初めに デモ 開発環境 環境作成 実行 初めに TTSのモデルが公開されたのでローカルで多言語対応(日本語にも対応)しているモデルを動かしてみます 以下は公開されたモデル一覧です huggingface.co デモ 生成テキスト「言いなりにならなきゃいけないほど後ろめ…