2025-12-01から1ヶ月間の記事一覧

Flow matchingを用いた高速・高品質なゼロショットTTS「ZipVoice」を日本語対応して学習・推論をする

AI

初めに 日本語対応のために行ったこと 開発環境 学習環境構築 学習 推論 初めに この前にZipVoiceを動かして英語の生成をしてみました。しかし日本語の対応がされていなかったので求めているユースケースとは異なります。 ayousanz.hatenadiary.jp 今回は日…

短い参照音声 + 歌詞から楽曲を生成できる楽曲生成AIフレームワーク「SongBloom」を動かす

AI

初めに 開発環境 環境構築 実行 初めに Sunoなど多くの楽曲生成サービスが出ていますが、ローカルで同じくらいの精度のものが出てきたということで触ってみます ライセンスが学術目的のみ使用可能で商用利用は禁止されているため、注意が必要です。 対応言語…

Flow Matchingを用いた高速・高品質なゼロショットTTS「ZipVoice」を動かす

AI

初めに 開発環境 環境構築 実行 初めに 高速推論が可能なZero ShotTTSを触ってみます github.com 処理のフローとしては以下のようになっています テキスト → トークナイザ → Text Encoder → FM Decoder → Vocoder → 波形(24kHz) 開発環境 Windows 11 uv 0.9.…

日本語特化の視覚言語モデル「sarashina2.2-vision-3b」を動かす

AI

初めに 開発環境 環境構築 実行 初めに 以下の記事にある「Sarashina2.2-Vision-3B」を動かしていきます www.sbintuitions.co.jp 開発環境 Windows 11 cuda 13.0 uv 環境構築 uvを使って環境構築をします。pyproject.tomlを作成します [project] name = "sar…

LMDeployによる最適化で高速になった「MiraTTS」をWindowsで推論(測度計測)する

AI

初めに 開発環境 環境構築 推論 初めに 高速に推論ができるらしい MiraTTSを触ってみます。 uvでWindowsに対応したリポジトリは以下で公開をしています github.com 開発環境 項目 バージョン OS Windows 11 CUDA 12.x (v13.0も動作確認済み) Python 3.11 パ…

VTuberの雑談配信の周期性およびLLMによる雑談配信の台本の再現

AI

初めに 分析対象の動画 分析方法 分析結果 フィラー(つなぎ言葉)分析 台本生成 初めに この前に ろてんじんさん とお話しをしていて、配信者における雑談の周期性が以下のような項目であるのではないかという話になり、自分のほうでも動画を使って実際に分…

NaturalSpeech 3の中核コンポーネント「FACodec(Factorized Audio Codec)」を使って参照ボイスからVoice Conversion を行う

AI

初めに 開発環境 環境構築 実行 初めに FACodec(Factorized Audio Codec)は、NaturalSpeech 3の中核コンポーネントです。 オーディオ仕様は以下になっています : 16kHz、ホップサイズ200サンプル また以下の制限があります。 音声は最大5秒に制限(長い音…

多報酬強化学習による制御可能で感情表現豊かなゼロショットTTS「GLM-TTS」をWindows + Dockerで動かす

AI

初めに 開発環境 環境構築 推論 初めに 最近出てきた以下のTTSを触ってみます github.com アーキテクチャは以下のようになっています LLM (Llama): テキスト → 音声トークン列を生成 Flow Matching: 音声トークン → メルスペクトログラム → ボコーダーで波形…

Aho-Corasickアルゴリズムを使用した高速でメモリ効率の良い複数パターン文字列検索ライブラリ「pyahocorasick」を動かして速度比較を行う

初めに 開発環境 環境構築 実行 他の文字検索ライブラリとの比較 相対速度(pyahocorasick = 1.0として) キーワード数と性能の関係 技術選定について 初めに 値の関連付けが必要で高速に文字列を検索したい時に使えるらしいpyahocorasickを触ってみます git…

拡散ベースの動画生成を100〜200倍高速化するフレームワーク「TurboDiffusion」をWindowsで動かす

AI

初めに 開発環境 環境構築 チェックポイントのダウンロード 実行 デモ動画 初めに 動画生成モデルで高速に生成できるものが出てきたので触ってみます TurboDiffusionAccelerating Video Diffusion Models by 100–205 Times pic.twitter.com/66ZYtT20hy— AK (…

軽量でボイスクローニング可能なTTS「VyvoTTS」をWindows + uvで動かす

AI

初めに 開発環境 環境構築 推論の実行 初めに Orpheus TTSをベースに開発がされたLLMベースのTTSになっています。 github.com Orpheus TTSから以下のような変更点があります モデルサイズの大幅な縮小 : Llama-3.2-3b → LFM2-350M 推論エンジンの多様化 : 以…

テキスト・視覚・時間範囲のプロンプトを使用して音声から特定の音を分離する「sam-audio」をuv + Windowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに SAM-Audio(Segment Anything Model for Audio)は、Meta(Facebook Research)が開発した音声分離のためのファウンデーションモデルです。テキスト、視覚、または時間範囲のプロンプトを使用して、複雑な音声ミックス…

FastSpeech2をuv + Windowsで動かす

AI

初めに アーキテクチャと課題 開発環境 環境構築 モデルのダウンロード 実行 初めに 前回 数年前のTTSの tacotron2を動かしました。今回はtactron2の課題の解決した FastSpeech2を実際に動かしていきます ayousanz.hatenadiary.jp FastSpeech2で解決したもの…

tacotron2をWindowsで動かす

AI

初めに tacotron2の構成と課題 開発環境 環境構築 実行 初めに いまさらですが、tacotron2を触ってみます 以下に現在の環境に合わせてuvで環境構築をしたRepositoryを作成しました github.com tacotron2の構成と課題 自己回帰 + Attentionのアーキテクチャに…

7000言語以上対応しているTTS「IMS-Toucan」を試す

AI

初めに 開発環境 環境構築 実行 初めに 7000言語以上の言語の対応したTTSのIMS-Toucanを動かしていきます 開発環境 MacOS M1 uv + python 3.10 環境構築 システム依存関係のインストールします brew install espeak-ng brew install ffmpeg インストール後に…

2016-2025年のSteamゲーム10万本を分析した結果

初めに 分析データの概要 ゲームリリース数 価格競争の実態 タグの分布について レビュー数分布 ゲーム機能の傾向 初めに ゲームをSteamでリリースする場合,価格設定やタイトルの決め方,企画時のジャンル等データを見てから決める方がいいことが多々ありま…

任意の話し声を歌声に変換する音声変換「toSinging」を動かす

AI

初めに 開発環境 環境構築 実行 初めに 話している音声から歌声に変換する面白いものがあったので、動かしていきます。 github.com 依存関係が固定化されていなかったので、以下にuvで整理をしたものを作成しました github.com 記事の内容はfork版とします。…

自然言語プロンプトで音声スタイルを制御できる「ParaStyleTTS」を動かす

AI

初めに 開発環境 環境構築 実行 初めに プロンプトで音声スタイルを制御するものを触っていきます。日本語は対応していないので英語と中国語のみです github.com 以下のアーキテクチャーで二段階に分けてスタイルを適応しているところがポイントです アーキ…

低レイテンシな音声コードブック生成+軽量デコーダのストリーミング志向オープンソース多言語TTS「kani-tts」を動かす

AI

初めに 開発環境 環境構築 実行 初めに 多言語対応している高速なTTS kani-ttsを動かしていきます 開発環境 Mac OS Apple silicon M4 uv 0.9.x 環境構築 必要なライブラリを入れます uv venv .venv --python 3.12 uv pip install --python .venv/bin/python …

リアルタイム物体検出フレームワーク「DEIMv2」を動かす

AI

初めに DINOv3とは DEIMv2とは YOLOとの比較 開発環境 環境構築 実行 初めに 画像や動画の物体検出にはYoloがよく使われますが、他の選択肢を知ったので触ってみます。 今回触ってみるDEIMv2(DETR with Improved Matching v2) は、DINOv3の特徴を活用した…

「誰がいつ話したか」を音声ストリームからリアルタイムで識別するリアルタイム話者ダイアライゼーション「diart」を動かす

AI

初めに 開発環境 環境構築 実行 初めに リアルタイム話者ダイアライゼーションのためのPythonフレームワークです。「誰がいつ話したか」を音声ストリームからリアルタイムで識別します。 開発環境 Mac OS 環境構築 システム依存関係をインストールします bre…

静止画像を3Dパララックス効果のある動画に変換するDepthFlowをWindowsでGraido経由で動かす

AI

初めに 開発環境 環境構築 実行 初めに 静止画像を3Dパララックス効果のある動画に変換するオープンソースツールがでたので触ってみます。特徴としては、GPU加速のGLSLシェーダーで高速処理(RTX 3060で8K@50fps)、AI深度推測で奥行情報を生成します。 gith…