AI

低レイテンシな音声コードブック生成+軽量デコーダのストリーミング志向オープンソース多言語TTS「kani-tts」を動かす

AI

初めに 開発環境 環境構築 実行 初めに 多言語対応している高速なTTS kani-ttsを動かしていきます 開発環境 Mac OS Apple silicon M4 uv 0.9.x 環境構築 必要なライブラリを入れます uv venv .venv --python 3.12 uv pip install --python .venv/bin/python …

リアルタイム物体検出フレームワーク「DEIMv2」を動かす

AI

初めに DINOv3とは DEIMv2とは YOLOとの比較 開発環境 環境構築 実行 初めに 画像や動画の物体検出にはYoloがよく使われますが、他の選択肢を知ったので触ってみます。 今回触ってみるDEIMv2(DETR with Improved Matching v2) は、DINOv3の特徴を活用した…

「誰がいつ話したか」を音声ストリームからリアルタイムで識別するリアルタイム話者ダイアライゼーション「diart」を動かす

AI

初めに 開発環境 環境構築 実行 初めに リアルタイム話者ダイアライゼーションのためのPythonフレームワークです。「誰がいつ話したか」を音声ストリームからリアルタイムで識別します。 開発環境 Mac OS 環境構築 システム依存関係をインストールします bre…

静止画像を3Dパララックス効果のある動画に変換するDepthFlowをWindowsでGraido経由で動かす

AI

初めに 開発環境 環境構築 実行 初めに 静止画像を3Dパララックス効果のある動画に変換するオープンソースツールがでたので触ってみます。特徴としては、GPU加速のGLSLシェーダーで高速処理(RTX 3060で8K@50fps)、AI深度推測で奥行情報を生成します。 gith…

anime-face-detectorを使ってアニメ顔の検出およびランドマーク検出を行う

初めに 開発環境 環境構築 実行 初めに アニメ顔(イラスト画像や動画、Live2D)などからランドマーク検出を取得する場合、最新の環境でもanime-face-detector は精度がよく候補に挙がってきます。ただしオリジナルのリポジトリでは、ライブラリ依存などで動か…

3podi/audio2chartを使ってギターヒーロー風リズムゲームの譜面を音源から作成する

AI

初めに 開発環境 環境構築 譜面データの作成 初めに audio2chart: End to End Audio Transcription into playable Guitar Hero charts にて以下のような譜面が生成できます。こちらをローカルで動かしてみます こちらは Moonscraper-Chart-Editorのソフトを…

macでneutts-airを動かす

AI

初めに 開発環境 環境構築 実行 初めに 開発環境 mac M4 uv 0.9.x 環境構築 uv venv -p 3.11 source .venv/bin/activate まずは英語の推論のための espeak-ngを入れます brew install espeak ライブラリを入れます uv pip install -r requirements.txt 次にm…

WindowsでStreamVoiceAnonを動かしてボイス変換を試す

AI

初めに 開発環境 環境構築 ボイス変換の実行 初めに 最近公開されたリアルタイム音声匿名化/音声変換モデルのStreamVoiceAnonを動かしていきます github.com 開発環境 Windows 11 uv 0.9.x 環境構築 uv venv .venv .venv/bin/activate ライブラリを入れてい…

WindowsでTaDiCodecで音声合成を行う

AI

初めに 開発環境 環境構築 音声合成の実行 初めに 音声言語モデリングのための拡散ベースの音声トークナイザーのライブラリが出ていたので触っていきます。今回はライブラリ側で提供されている音声合成機能部分を使います TaDiCodecには以下の二つが提供され…

話者ダイアライゼーションツールキットのDiariZenをWindowsで動かす

AI

初めに 開発環境 環境構築 モデルのダウンロード 実行 初めに AudioZenとPyannote 3.1をベースとした話者ダイアライゼーション(speaker diarization)ツールキットが公開されました。 特徴としては以下になります。 自己教師あり学習(SSL)ベースのWavLMモデル…

文書画像解析用のマルチモーダルVLMモデル「Dolphin」をWindowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに Bytedanceから文章の画像分析マルチモーダルがOSSで公開されています。こちらをローカルで動かしていきます Model Spaceは以下で公開されています huggingface.co 開発環境 Windows 11 uv 0.9.x 環境構築 まずはPython…

UtterTuneで独自データセットでLoRA学習を行う

AI

初めに 開発環境 環境構築 データセットの構築 前処理を実行 マニフェストファイル生成 マニフェスト形式 生成スクリプトの例 マニフェストの作成処理の実行 出力例 学習実行 推論実行 基本的な推論 複数テキストの一括合成 テキストファイルからの読み込み …

BytePlusのSeed SpeechのVoice Replicationを使って音声クローンを試す

AI

初めに 開発環境 環境構築 .envを作成 音声のアップロード 学習されたモデルで推論を実行 初めに 以下の音声クローンを試していきます。音声クローン以外にもいくつか提供されている音声を使うこともできます www.byteplus.com 開発環境 Windows 11 uv 0.9.x…

CosyVoice2にLoRAアダプターで 音素レベルの発音・韻律制御を実現するUtterTuneをCLIとWebUIで動かす

AI

初めに 開発環境 環境構築 CLIで推論 WebUIを作成・実行 初めに 1か月ほど前に Cosy-Voiceを改良した UtterTuneが公開されました。 リポジトリは以下です。 github.com こちらはLoRAを用いてアクセントやピッチをより正確に発音できるように改善されています…

ラズパイでも動く軽量TTSモデルのpiperを改良した日本語対応のpiper-plusの開発

AI

初めに 開発環境 改善内容 課題 初めに 以前から以下のような記事を書いてより軽量なモデルでローカルで動くTTSがないかの検証をしていました。 ayousanz.hatenadiary.jp ayousanz.hatenadiary.jp 日本語の学習についての検証は以下です。 ayousanz.hatenadi…

ターン検出のsmart-turnでリアルタイムで発話中かどうかを判定する

AI

初めに 開発環境 環境構築 ターン検出 初めに 発話中かどうかはVADを用いて判定することが多いです。今回は VADではなくターン検出を使って発話中の判定を行っていきます github.com 開発環境 Mac OS uv 環境構築 まずは音声入力を扱うために必要なライブラ…

smallttsをDocker環境で動かす

AI

初めに 開発環境 環境構築 推論の実行 初めに 軽量のTTSモデルの smallttsを動かしていきます。 github.com 英語以外は対応していないので、生成できる音声は英語のみになります 開発環境 Windows 11 Docker 環境構築 以下のDockerファイルを作成します # CP…

VoiceStarをDocker環境で動かす

AI

初めに 開発環境 Docker環境の作成 初めに ZeroShotのTTSが出たので触っていきます arxiv.org リポジトリは以下になります github.com Docker対応したものは以下で公開しています github.com 備考 Training data. Our training set consists of the English …

ShinkaEvolveのCircle PackingをWindowsで動かす

AI

初めに 開発環境 環境構築 サンプルの実行 WebUIでGUI上で確認 初めに 開発環境 Windows 11 uv 環境構築 まずはuvで環境構築を行います uv venv -p 3.11 .\.venv\Scripts\activate 次に関連ライブラリをインストールします uv pip install -e . OpenAIのAPI…

さくらのAI Engineでgpt-oss-120bをpythonで実行する

初めに 開発環境 環境構築 APIトークンの発行 Pythonで実行 初めに さくらインターネットが新しくOSSのLLM等をGPUにホスティングして無料枠を提供しています。 www.sakura.ad.jp 無料枠と料金は以下のようになっています 各種APIドキュメントは以下です manu…

日本語対応の軽量TTSライブラリ「piper-plus」をPythonで動かす

初めに 開発環境 環境構築 コードから推論を実行 初めに 先日以下のようなライブラリを発表しました 【新作OSSを一挙3本公開!】音声合成・Unity・デスクトップアプリの領域で、3つのオープンソースプロジェクトを公開しました!piper-plus: 高速・軽量な日…

Qwen/Qwen3Guard-Gen-8BをWindowsで動かす

AI

初めに 開発環境 環境構築 モデルの実装 モデルを量子化してロード 日本語のプロトタイプを試す 初めに Qwenのsafety moderation modelが出たので触ってみます ️ Meet Qwen3Guard — the Qwen3-based safety moderation model series built for global, real-…

kabosu-coreを使って日本語の文章でg2p処理をする

AI

初めに 開発環境 環境構築 日本語文章でg2pを実行 初めに 新しいTTSの前処理のライブラリがでていたので、試してみます github.com 開発環境 uv window 11 python 3.21 環境構築 まずはuvを使って環境構築をします uv venv --python 3.12 .venv\Scripts\acti…

FireRedTTS2をWindowsで動かす

AI

初めに 開発環境 環境構築 デモの起動 ランダムボイスの実行 ボイスクローン 初めに 長時間会話音声生成をするための音声合成ライブラリが出ていたので、試していきます 開発環境 Windows 11 uv 環境構築 リポジトリのReadMeにはcondaで環境構築をしています…

Qwen2-Audio-7B-Instructで音声とテキストから感情を判定する

初めに 開発環境 環境構築 判定の実行 初めに いままで試してきた感情の判定は、音声データもしくはテキストデータの片方から判定を行っていました。 今回はマルチモーダルを用いて両方のデータから判定を行っていきます 開発環境 Windows 11 python 3.12 環…

YoichiTakenaka/deverta-v3-japanese-large-Anticipationでテキストの感情を判定する

開発環境 環境構築 ラベル判定 開発環境 Windows 11 Python 3.12 cuda 12.4 環境構築 以下で環境構築をして、必要なライブラリをインストールします uv venv .\.venv\Scripts\activate uv pip install torch --index-url https://download.pytorch.org/whl/c…

litagin/anime_speech_emotion_classificationを使って音声の感情を判定する

初めに 開発環境 環境構築 感情の判定 初めに 以下でも音声ファイルの感情判定を行っていますが、こちらとは違うモデルを使って判定を行っていきます ayousanz.hatenadiary.jp 開発環境 Windows 11 Python 3.12 環境構築 以下で必要なライブラリをインストー…

FunAudioLLM/SenseVoiceSmallを使って音声の感情を判定する

開発環境 環境構築 実行 開発環境 Windows 11 python 3.12 cuda 12.4 環境構築 以下のライブラリをインストールします uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 uv pip install funasr 実行 以下の…

vosk-unity-asrを使ってUnityでローカルの音声認識処理を行う

初めに 開発環境 実行 初めに Unityを使って音声認識をする場合、日本語の音声認識のローカルモデルはほぼないです。今回は、vosk-unity-asr (リンク先はfork版) を使って動かしてみます 開発環境 unity 6000.x.x 実行 リポジトリをcloneすると以下のように…

piperモデルからつくよみちゃんデータセットを使って追加学習を行う

初めに Demo 開発環境 前処理 事前学習モデルから 追加学習用のモデルを作成 追加学習 onnxに変換 推論 初めに 以下の記事でjvsデータセットを用いてpiperモデルの日本語化対応を行いました。 ayousanz.hatenadiary.jp しかし、このモデルはあくまで事前学習…