2025-12-01から1ヶ月間の記事一覧
初めに 日本語対応のために行ったこと 開発環境 学習環境構築 学習 推論 初めに この前にZipVoiceを動かして英語の生成をしてみました。しかし日本語の対応がされていなかったので求めているユースケースとは異なります。 ayousanz.hatenadiary.jp 今回は日…
初めに 開発環境 環境構築 実行 初めに Sunoなど多くの楽曲生成サービスが出ていますが、ローカルで同じくらいの精度のものが出てきたということで触ってみます ライセンスが学術目的のみ使用可能で商用利用は禁止されているため、注意が必要です。 対応言語…
初めに 開発環境 環境構築 実行 初めに 高速推論が可能なZero ShotTTSを触ってみます github.com 処理のフローとしては以下のようになっています テキスト → トークナイザ → Text Encoder → FM Decoder → Vocoder → 波形(24kHz) 開発環境 Windows 11 uv 0.9.…
初めに 開発環境 環境構築 実行 初めに 以下の記事にある「Sarashina2.2-Vision-3B」を動かしていきます www.sbintuitions.co.jp 開発環境 Windows 11 cuda 13.0 uv 環境構築 uvを使って環境構築をします。pyproject.tomlを作成します [project] name = "sar…
初めに 開発環境 環境構築 推論 初めに 高速に推論ができるらしい MiraTTSを触ってみます。 uvでWindowsに対応したリポジトリは以下で公開をしています github.com 開発環境 項目 バージョン OS Windows 11 CUDA 12.x (v13.0も動作確認済み) Python 3.11 パ…
初めに 分析対象の動画 分析方法 分析結果 フィラー(つなぎ言葉)分析 台本生成 初めに この前に ろてんじんさん とお話しをしていて、配信者における雑談の周期性が以下のような項目であるのではないかという話になり、自分のほうでも動画を使って実際に分…
初めに 開発環境 環境構築 実行 初めに FACodec(Factorized Audio Codec)は、NaturalSpeech 3の中核コンポーネントです。 オーディオ仕様は以下になっています : 16kHz、ホップサイズ200サンプル また以下の制限があります。 音声は最大5秒に制限(長い音…
初めに 開発環境 環境構築 推論 初めに 最近出てきた以下のTTSを触ってみます github.com アーキテクチャは以下のようになっています LLM (Llama): テキスト → 音声トークン列を生成 Flow Matching: 音声トークン → メルスペクトログラム → ボコーダーで波形…
初めに 開発環境 環境構築 実行 他の文字検索ライブラリとの比較 相対速度(pyahocorasick = 1.0として) キーワード数と性能の関係 技術選定について 初めに 値の関連付けが必要で高速に文字列を検索したい時に使えるらしいpyahocorasickを触ってみます git…
初めに 開発環境 環境構築 チェックポイントのダウンロード 実行 デモ動画 初めに 動画生成モデルで高速に生成できるものが出てきたので触ってみます TurboDiffusionAccelerating Video Diffusion Models by 100–205 Times pic.twitter.com/66ZYtT20hy— AK (…
初めに 開発環境 環境構築 推論の実行 初めに Orpheus TTSをベースに開発がされたLLMベースのTTSになっています。 github.com Orpheus TTSから以下のような変更点があります モデルサイズの大幅な縮小 : Llama-3.2-3b → LFM2-350M 推論エンジンの多様化 : 以…
初めに 開発環境 環境構築 実行 初めに SAM-Audio(Segment Anything Model for Audio)は、Meta(Facebook Research)が開発した音声分離のためのファウンデーションモデルです。テキスト、視覚、または時間範囲のプロンプトを使用して、複雑な音声ミックス…
初めに アーキテクチャと課題 開発環境 環境構築 モデルのダウンロード 実行 初めに 前回 数年前のTTSの tacotron2を動かしました。今回はtactron2の課題の解決した FastSpeech2を実際に動かしていきます ayousanz.hatenadiary.jp FastSpeech2で解決したもの…
初めに tacotron2の構成と課題 開発環境 環境構築 実行 初めに いまさらですが、tacotron2を触ってみます 以下に現在の環境に合わせてuvで環境構築をしたRepositoryを作成しました github.com tacotron2の構成と課題 自己回帰 + Attentionのアーキテクチャに…
初めに 開発環境 環境構築 実行 初めに 7000言語以上の言語の対応したTTSのIMS-Toucanを動かしていきます 開発環境 MacOS M1 uv + python 3.10 環境構築 システム依存関係のインストールします brew install espeak-ng brew install ffmpeg インストール後に…
初めに 分析データの概要 ゲームリリース数 価格競争の実態 タグの分布について レビュー数分布 ゲーム機能の傾向 初めに ゲームをSteamでリリースする場合,価格設定やタイトルの決め方,企画時のジャンル等データを見てから決める方がいいことが多々ありま…
初めに 開発環境 環境構築 実行 初めに 話している音声から歌声に変換する面白いものがあったので、動かしていきます。 github.com 依存関係が固定化されていなかったので、以下にuvで整理をしたものを作成しました github.com 記事の内容はfork版とします。…
初めに 開発環境 環境構築 実行 初めに プロンプトで音声スタイルを制御するものを触っていきます。日本語は対応していないので英語と中国語のみです github.com 以下のアーキテクチャーで二段階に分けてスタイルを適応しているところがポイントです アーキ…
初めに 開発環境 環境構築 実行 初めに 多言語対応している高速なTTS kani-ttsを動かしていきます 開発環境 Mac OS Apple silicon M4 uv 0.9.x 環境構築 必要なライブラリを入れます uv venv .venv --python 3.12 uv pip install --python .venv/bin/python …
初めに DINOv3とは DEIMv2とは YOLOとの比較 開発環境 環境構築 実行 初めに 画像や動画の物体検出にはYoloがよく使われますが、他の選択肢を知ったので触ってみます。 今回触ってみるDEIMv2(DETR with Improved Matching v2) は、DINOv3の特徴を活用した…
初めに 開発環境 環境構築 実行 初めに リアルタイム話者ダイアライゼーションのためのPythonフレームワークです。「誰がいつ話したか」を音声ストリームからリアルタイムで識別します。 開発環境 Mac OS 環境構築 システム依存関係をインストールします bre…
初めに 開発環境 環境構築 実行 初めに 静止画像を3Dパララックス効果のある動画に変換するオープンソースツールがでたので触ってみます。特徴としては、GPU加速のGLSLシェーダーで高速処理(RTX 3060で8K@50fps)、AI深度推測で奥行情報を生成します。 gith…