yousanのメモ

2025-12-23から1日間の記事一覧

日本語特化の視覚言語モデル「sarashina2.2-vision-3b」を動かす

AI

初めに開発環境環境構築実行初めに以下の記事にある「Sarashina2.2-Vision-3B」を動かしていきます www.sbintuitions.co.jp 開発環境 Windows 11 cuda 13.0 uv 環境構築 uvを使って環境構築をします。pyproject.tomlを作成します [project] name = "sar…

LMDeployによる最適化で高速になった「MiraTTS」をWindowsで推論(測度計測)する

AI

初めに開発環境環境構築推論初めに高速に推論ができるらしい MiraTTSを触ってみます。 uvでWindowsに対応したリポジトリは以下で公開をしています github.com 開発環境項目バージョン OS Windows 11 CUDA 12.x (v13.0も動作確認済み) Python 3.11 パ…

VTuberの雑談配信の周期性およびLLMによる雑談配信の台本の再現

AI

初めに分析対象の動画分析方法分析結果フィラー（つなぎ言葉）分析台本生成初めにこの前にろてんじんさんとお話しをしていて、配信者における雑談の周期性が以下のような項目であるのではないかという話になり、自分のほうでも動画を使って実際に分…

NaturalSpeech 3の中核コンポーネント「FACodec（Factorized Audio Codec）」を使って参照ボイスからVoice Conversion を行う

AI

初めに開発環境環境構築実行初めに FACodec（Factorized Audio Codec）は、NaturalSpeech 3の中核コンポーネントです。オーディオ仕様は以下になっています : 16kHz、ホップサイズ200サンプルまた以下の制限があります。音声は最大5秒に制限（長い音…