AI
初めに 開発環境 環境構築 推論 初めに 高速に推論ができるらしい MiraTTSを触ってみます。 uvでWindowsに対応したリポジトリは以下で公開をしています github.com 開発環境 項目 バージョン OS Windows 11 CUDA 12.x (v13.0も動作確認済み) Python 3.11 パ…
初めに 分析対象の動画 分析方法 分析結果 フィラー(つなぎ言葉)分析 台本生成 初めに この前に ろてんじんさん とお話しをしていて、配信者における雑談の周期性が以下のような項目であるのではないかという話になり、自分のほうでも動画を使って実際に分…
初めに 開発環境 環境構築 実行 初めに FACodec(Factorized Audio Codec)は、NaturalSpeech 3の中核コンポーネントです。 オーディオ仕様は以下になっています : 16kHz、ホップサイズ200サンプル また以下の制限があります。 音声は最大5秒に制限(長い音…
初めに 開発環境 環境構築 推論 初めに 最近出てきた以下のTTSを触ってみます github.com アーキテクチャは以下のようになっています LLM (Llama): テキスト → 音声トークン列を生成 Flow Matching: 音声トークン → メルスペクトログラム → ボコーダーで波形…
初めに 開発環境 環境構築 チェックポイントのダウンロード 実行 デモ動画 初めに 動画生成モデルで高速に生成できるものが出てきたので触ってみます TurboDiffusionAccelerating Video Diffusion Models by 100–205 Times pic.twitter.com/66ZYtT20hy— AK (…
初めに 開発環境 環境構築 推論の実行 初めに Orpheus TTSをベースに開発がされたLLMベースのTTSになっています。 github.com Orpheus TTSから以下のような変更点があります モデルサイズの大幅な縮小 : Llama-3.2-3b → LFM2-350M 推論エンジンの多様化 : 以…
初めに 開発環境 環境構築 実行 初めに SAM-Audio(Segment Anything Model for Audio)は、Meta(Facebook Research)が開発した音声分離のためのファウンデーションモデルです。テキスト、視覚、または時間範囲のプロンプトを使用して、複雑な音声ミックス…
初めに アーキテクチャと課題 開発環境 環境構築 モデルのダウンロード 実行 初めに 前回 数年前のTTSの tacotron2を動かしました。今回はtactron2の課題の解決した FastSpeech2を実際に動かしていきます ayousanz.hatenadiary.jp FastSpeech2で解決したもの…
初めに tacotron2の構成と課題 開発環境 環境構築 実行 初めに いまさらですが、tacotron2を触ってみます 以下に現在の環境に合わせてuvで環境構築をしたRepositoryを作成しました github.com tacotron2の構成と課題 自己回帰 + Attentionのアーキテクチャに…
初めに 開発環境 環境構築 実行 初めに 7000言語以上の言語の対応したTTSのIMS-Toucanを動かしていきます 開発環境 MacOS M1 uv + python 3.10 環境構築 システム依存関係のインストールします brew install espeak-ng brew install ffmpeg インストール後に…
初めに 開発環境 環境構築 実行 初めに 話している音声から歌声に変換する面白いものがあったので、動かしていきます。 github.com 依存関係が固定化されていなかったので、以下にuvで整理をしたものを作成しました github.com 記事の内容はfork版とします。…
初めに 開発環境 環境構築 実行 初めに プロンプトで音声スタイルを制御するものを触っていきます。日本語は対応していないので英語と中国語のみです github.com 以下のアーキテクチャーで二段階に分けてスタイルを適応しているところがポイントです アーキ…
初めに 開発環境 環境構築 実行 初めに 多言語対応している高速なTTS kani-ttsを動かしていきます 開発環境 Mac OS Apple silicon M4 uv 0.9.x 環境構築 必要なライブラリを入れます uv venv .venv --python 3.12 uv pip install --python .venv/bin/python …
初めに DINOv3とは DEIMv2とは YOLOとの比較 開発環境 環境構築 実行 初めに 画像や動画の物体検出にはYoloがよく使われますが、他の選択肢を知ったので触ってみます。 今回触ってみるDEIMv2(DETR with Improved Matching v2) は、DINOv3の特徴を活用した…
初めに 開発環境 環境構築 実行 初めに リアルタイム話者ダイアライゼーションのためのPythonフレームワークです。「誰がいつ話したか」を音声ストリームからリアルタイムで識別します。 開発環境 Mac OS 環境構築 システム依存関係をインストールします bre…
初めに 開発環境 環境構築 実行 初めに 静止画像を3Dパララックス効果のある動画に変換するオープンソースツールがでたので触ってみます。特徴としては、GPU加速のGLSLシェーダーで高速処理(RTX 3060で8K@50fps)、AI深度推測で奥行情報を生成します。 gith…
初めに 開発環境 環境構築 実行 初めに アニメ顔(イラスト画像や動画、Live2D)などからランドマーク検出を取得する場合、最新の環境でもanime-face-detector は精度がよく候補に挙がってきます。ただしオリジナルのリポジトリでは、ライブラリ依存などで動か…
初めに 開発環境 環境構築 譜面データの作成 初めに audio2chart: End to End Audio Transcription into playable Guitar Hero charts にて以下のような譜面が生成できます。こちらをローカルで動かしてみます こちらは Moonscraper-Chart-Editorのソフトを…
初めに 開発環境 環境構築 実行 初めに 開発環境 mac M4 uv 0.9.x 環境構築 uv venv -p 3.11 source .venv/bin/activate まずは英語の推論のための espeak-ngを入れます brew install espeak ライブラリを入れます uv pip install -r requirements.txt 次にm…
初めに 開発環境 環境構築 ボイス変換の実行 初めに 最近公開されたリアルタイム音声匿名化/音声変換モデルのStreamVoiceAnonを動かしていきます github.com 開発環境 Windows 11 uv 0.9.x 環境構築 uv venv .venv .venv/bin/activate ライブラリを入れてい…
初めに 開発環境 環境構築 音声合成の実行 初めに 音声言語モデリングのための拡散ベースの音声トークナイザーのライブラリが出ていたので触っていきます。今回はライブラリ側で提供されている音声合成機能部分を使います TaDiCodecには以下の二つが提供され…
初めに 開発環境 環境構築 モデルのダウンロード 実行 初めに AudioZenとPyannote 3.1をベースとした話者ダイアライゼーション(speaker diarization)ツールキットが公開されました。 特徴としては以下になります。 自己教師あり学習(SSL)ベースのWavLMモデル…
初めに 開発環境 環境構築 実行 初めに Bytedanceから文章の画像分析マルチモーダルがOSSで公開されています。こちらをローカルで動かしていきます Model Spaceは以下で公開されています huggingface.co 開発環境 Windows 11 uv 0.9.x 環境構築 まずはPython…
初めに 開発環境 環境構築 データセットの構築 前処理を実行 マニフェストファイル生成 マニフェスト形式 生成スクリプトの例 マニフェストの作成処理の実行 出力例 学習実行 推論実行 基本的な推論 複数テキストの一括合成 テキストファイルからの読み込み …
初めに 開発環境 環境構築 .envを作成 音声のアップロード 学習されたモデルで推論を実行 初めに 以下の音声クローンを試していきます。音声クローン以外にもいくつか提供されている音声を使うこともできます www.byteplus.com 開発環境 Windows 11 uv 0.9.x…
初めに 開発環境 環境構築 CLIで推論 WebUIを作成・実行 初めに 1か月ほど前に Cosy-Voiceを改良した UtterTuneが公開されました。 リポジトリは以下です。 github.com こちらはLoRAを用いてアクセントやピッチをより正確に発音できるように改善されています…
初めに 開発環境 改善内容 課題 初めに 以前から以下のような記事を書いてより軽量なモデルでローカルで動くTTSがないかの検証をしていました。 ayousanz.hatenadiary.jp ayousanz.hatenadiary.jp 日本語の学習についての検証は以下です。 ayousanz.hatenadi…
初めに 開発環境 環境構築 ターン検出 初めに 発話中かどうかはVADを用いて判定することが多いです。今回は VADではなくターン検出を使って発話中の判定を行っていきます github.com 開発環境 Mac OS uv 環境構築 まずは音声入力を扱うために必要なライブラ…
初めに 開発環境 環境構築 推論の実行 初めに 軽量のTTSモデルの smallttsを動かしていきます。 github.com 英語以外は対応していないので、生成できる音声は英語のみになります 開発環境 Windows 11 Docker 環境構築 以下のDockerファイルを作成します # CP…
初めに 開発環境 Docker環境の作成 初めに ZeroShotのTTSが出たので触っていきます arxiv.org リポジトリは以下になります github.com Docker対応したものは以下で公開しています github.com 備考 Training data. Our training set consists of the English …