2026-01-01から1年間の記事一覧

Brilliant Labs の Frame のマイクで録音してみる

初めに 開発環境 仕組み ホスト側のコード 実行 初めに Brilliant Labs の Frame シリーズの続きです。前回までで OLED 表示と写真撮影をやったので、今回はマイクから音声を録って、Mac に WAV として保存してみます。 ayousanz.hatenadiary.jp ayousanz.ha…

Brilliant Labs の Frame に日本語を表示してみる

初めに 開発環境 単に日本語の文字列を送るだけだと表示できない 日本語フォントを用意する デバイス側 Lua アプリ ホスト側のコード 実行 初めに Brilliant Labs の Frame シリーズ、前回までで OLED に Hello, Frame! を出したり、カメラで撮った写真を Ma…

Brilliant Labs の Frame で写真を撮ってみる

初めに 開発環境 frame-msg を使う ホスト側のコード 実行 初めに 以下の前回の記事で Brilliant Labs の Frame を Mac から動かして OLED に Hello World を表示するところまで動かしました。 ayousanz.hatenadiary.jp 今回は Frame のカメラで写真を撮って…

Brilliant Labs の Frame を Mac から動かしてみる

初めに 開発環境 環境構築 Frame をペアリングする Hello, Frame! を表示する ハマったところ 初めに Brilliant Labs の Frame は、ディスプレイ/カメラ/マイク/IMU を備えた小型のスマートグラスです。 なお Frame 自体は既に販売終了となっており、現在…

piper-plusのVITS DecoderをHiFi-GANからMB-iSTFTに移行してCPU推論を2.21倍高速化

初めに 前提知識のミニ整理 なぜHiFi-GANは遅いのか MB-iSTFT-VITS2のアイデア データフローで比較する 3つの新規コンポーネント PQMF — 音声を4つの周波数帯域に分けるフィルタ 入出力サイズの整理 内部実装の概略 MBiSTFTGenerator — 新しいDecoder本体 On…

X-VCをWindowsネイティブ + uvで動かして英語音声変換を試してみる

AI

初めに 開発環境 重要なポイント 環境構築 モデルの準備 実行 実行結果 初めに 今回は、ゼロショットの音声変換ライブラリ X-VC を Windows ネイティブ環境で動かして、英語音声のオフライン変換を試してみます。 github.com 開発環境 Windows 11 uv 0.9.x P…

TimesFM 2.5を使って東京の気温とVTI株価をゼロショット予測する

AI

初めに 開発環境 環境構築 Python バージョンの注意 仮想環境の作成 パッケージのインストール インストールの確認 データの取得 東京の気温(meteostat) VTI株価(yfinance) モデルの読み込みとコンパイル 重みのダウンロード ForecastConfigによるコンパ…

LongCat-AudioDiTの3.5Bモデルを使ってゼロショットTTSの推論をしてみる

AI

初めに 開発環境 環境構築 リポジトリのクローン Python バージョンの固定 pyproject.toml の作成 依存関係のインストール 3.5B モデルを動かすための工夫 VRAM の問題 inference.py の修正 Windows の cp932 エンコーディング問題 推論の実行 中国語テキス…

WebUtauをローカル構築して闇音レンリで日本語歌声合成を試してみた

AI

初めに 開発環境 WebUtauの全体構成 環境構築 リポジトリのクローン フロントエンドのセットアップ バックエンドのビルド ボイスバンクとボコーダーのダウンロード ボイスバンクディレクトリの準備 闇音レンリ DiffSingerのダウンロード NSF-HiFiGANボコーダ…

piper-plusの.NET版で多言語音素変換を実装する

初めに 開発環境 環境構築 プロジェクトの作成 パッケージのインストール 実行 日本語の音素変換 英語の音素変換 マルチリンガル音素変換 韻律情報付きの音素変換 APIアーキテクチャ IPhonemizer インターフェース Phonemizerの構築パターン 韻律情報の詳細 …

piper-plusのWASM版でブラウザ上の日本語TTSを実現する

初めに 開発環境 環境構築 プロジェクトの作成 パッケージのインストール package.jsonの設定 Vite設定ファイルの作成(vite.config.js) モデルの準備 実装 最小限のHTML(index.html) JavaScript(main.js) 開発サーバーの起動 実行結果 APIの詳細 Piper…

piper-plus v1.11.0のGo SDKでTTS APIサーバーを構築する

初めに 開発環境 アーキテクチャ概要 環境構築 ONNX Runtimeの準備 CLIのビルド モデルのダウンロード Go APIの基本的な使い方 HTTP APIサーバー CLIからの起動 Goプログラムからの起動 エンドポイント curlでの動作確認 VoicePool: 並行セッション管理 スト…

piper-plus-g2p: TTS不要で使えるMITライセンスの多言語G2Pパッケージ

初めに 開発環境 環境構築 全言語をインストールする場合 日本語のみの場合 個別言語のextras 基本的な使い方 言語ごとのPhonemizer取得 各言語の出力例 日本語の韻律情報(ProsodyInfo) PiperEncoderでphoneme_idsに変換(オプション) 多言語テキストの自…

piper-plus v1.11.0のRust SDKで高速TTSを実現する

初めに 開発環境 環境構築 CLIのインストール モデルのダウンロード CLIの基本的な使い方 テキストから音声合成 パラメータの調整 デバイス指定 raw PCM出力 バッチ処理 8言語G2P 対応言語とfeature flags G2P APIの使い方 Rust APIでの合成 ストリーミング…

piper-plusのDockerイメージでTTSのWebUIを提供する

初めに 開発環境 Dockerイメージの構成 Gradio WebUIの起動 リポジトリのクローンとビルド コンテナの起動(モデル自動ダウンロード) ブラウザでアクセス 手動でモデルを配置する場合 docker-composeによる起動 複数モデルの利用 所感 初めに 今回は、piper…

piper-plusの日本語TTSをOpenJTalkのアクセントラベルで改善してみた

初めに 開発環境 OpenJTalkのフルコンテキストラベルとは 韻律記号への変換 「N」の文脈依存変異 環境構築 前処理でのラベル適用 espeak-ng(ラベルなし)での前処理 OpenJTalk(ラベルあり)での前処理 学習への韻律情報注入 所感 初めに 日本語のTTSでは、…

piper-plusのPython SDKを使って日本語TTSの推論をしてみる

初めに 開発環境 環境構築 プロジェクトの作成 インストール 日本語モデルのダウンロード 基本的な推論 Pythonコードからの推論 GPU推論 CLIからの推論 ストリーミング合成 カスタム辞書と直接フォネム入力 所感 初めに 今回は、自分が開発しているTTSライブ…

日本語を含む6言語対応の軽量TTS「piper-plus」をバイナリファイルから実行して推論する

初めに 開発環境 バイナリのダウンロードと確認 モデルのダウンロード 推論 初めに スマホやIoTでも動かすことができる日本語を含む6言語対応の軽量TTSのpiper-plusを公開しています 学習も自由にできるようにOSSとして公開しています github.com piper-plus…

スピーカー参照条件付きのマルチスピーカー音声合成拡散モデル「Echo-TTS」をWindowsで推論をする

AI

初めに 開発環境 環境構築 実行 初めに 拡散モデルのTTSのEcho-TTSを動かしてみます github.com 制限事項としては以下になります 主に英語向け(学習データに日本語が含まれるかは不明) 音声出力は CC-BY-NC-SA-4.0(非商用)ライセンス 開発環境 Windows 1…

LuxTTSを日本語g2p対応をして学習を行い、日本語の音声合成に対応する

初めに 開発環境 環境構築 初めに ZipVoice をベースにして推論を高速化した LuxTTSを今回は日本語対応をしていきます github.com 基本的にpyopenjtalkを使って日本語のg2pを入れて学習をする流れです 対応済みのリポジトリは以下で公開しています github.co…

複数の生物種が限られた空間内で共存するシミュレーション「Evoli」を動かす

初めに 開発環境 環境構築 実行 初めに 数年前にリリーされているAmethyst エンジンで構築されたマイクロ生態系シミュレーションゲームです github.com これをBevy エンジン (v0.15) に書き換えました。 github.com 実行すると以下のような動きをします 開発…

粒子間の引力・斥力で生命のようなパターンが創発する「Particle Life」シミュレーションをmacOS + openFrameworksで動かす

初めに 開発環境 環境構築 初めに 粒子間の引力・斥力という単純なルールから、生命のような自己組織化パターンが生まれるシミュレーション「Particle Life」を触ってみます。 youtu.be オリジナルのリポジトリは以下です。 https://github.com/hunar4321/pa…

リアルタイム音声アプリケーション向けのオンデバイス音声認識(STT)ライブラリでマルチプラットフォームに対応している Moonshine VoiceをWindowsで動かす

AI

初めに 開発環境 環境構築 実行 初めに リアルタイム音声アプリケーション向けのオンデバイス音声認識(STT)ライブラリでマルチプラットフォームに対応している Moonshine Voiceを触ってみます github.com 開発環境 Windows 11 uv 0.9.x cuda 13.0 環境構築 …

動画セグメンテーションの軽量なエンコーダのみのViTモデルをWindowsで動かす

AI

初めに 開発環境 環境構築 1. Detectron2をクローンしてC++拡張を無効化 2. pyproject.toml の detectron2 ソースをローカルパスに変更 3. 依存パッケージをインストール CUDA バージョンについて 実行 初めに 以下のような動画の軽量なセグメンテーションの…

ACL 2024論文「EconAgent」でGPT-4.1-miniによる100人規模のマクロ経済シミュレーションを動かす

AI

初めに 開発環境 環境構築 シミュレーション実行 仕組み シミュレーション結果 マクロ経済指標 失業率 資産分布 結果からわかること 初めに EconAgentは、LLMを経済エージェントの意思決定エンジンとして使い、マクロ経済活動をシミュレートするフレームワー…

大規模社会シミュレーションを行うマルチエージェントシステム「Agent-Kernel」を用いて災害対応シミュレーションで多様性がもたらす推定を行う

AI

初めに 開発環境 実験設計 シナリオ 専門家のリング構造 エージェントの行動 実験条件 環境構築 実行 シミュレーション実行 実験結果 結果のポイント 可視化ダッシュボード まとめ 参考 初めに 大規模社会シミュレーションを行うフレームワーク Agent-Kernel…

音声から3Dフェイシャルアニメーションを生成する「UniTalker」を実行する

AI

初めに 開発環境 環境構築 実行 初めに 音声から3Dフェイシャルアニメーションを生成する統合ニューラルネットワークモデル「UniTalker」を実行してみます uvに統合 + ドキュメントの日本語対応したforkリポジトリは以下です github.com サンプル音声を実行…

自己教師あり音声特徴量に対する線形回帰のみで音声変換を行うLinearVCを動かす

AI

初めに 開発環境 環境構築 データの準備 LibriSpeech dev-clean のダウンロード サブセットの作成 実行 パターン1: LibriSpeech 1272 → つくよみちゃん(英語男性 → 日本語女性) パターン2: つくよみちゃん → LibriSpeech 1272(日本語女性 → 英語男性) パ…

Roboflow の trackers ライブラリで YOLO + ByteTrack による動画マルチオブジェクト追跡をする

AI

初めに 結果 開発環境 環境構築 テスト用動画のダウンロード デモスクリプトの解説 引数 検出 追跡 可視化 ソースコード全文 実行 初めに trackers は、Roboflow が提供するマルチオブジェクト追跡(MOT)アルゴリズムのクリーンルーム実装ライブラリです。A…

JAXA Earth APIとGradioで衛星データの取得・可視化アプリを作る

初めに 開発環境 環境構築 JAXA Earth API の基本的な使い方 機能紹介 コレクション検索 衛星画像ビューア 時系列解析 差分解析 マスキング 実行 参考 初めに JAXA Earth API は、JAXAが保有するCOG/STAC形式の地球観測衛星データにPythonからアクセスできる…