リアルタイム音声アプリケーション向けのオンデバイス音声認識(STT)ライブラリでマルチプラットフォームに対応している Moonshine VoiceをWindowsで動かす

初めに

リアルタイム音声アプリケーション向けのオンデバイス音声認識(STT)ライブラリでマルチプラットフォームに対応している Moonshine Voiceを触ってみます

github.com

開発環境

  • Windows 11
  • uv 0.9.x
  • cuda 13.0

環境構築

以下のように依存ライブラリを追加します

uv python pin 3.12
uv add moonshine-voice

project.yamlは以下のようになります

[project]
name = "moonshine"
version = "0.1.0"
description = "Add your description here"
readme = "README.md"
requires-python = ">=3.12"
dependencies = [
    "datasets>=4.6.1",
    "moonshine-voice>=0.0.49",
    "soundfile>=0.13.1",
]

以下で依存ライブラリを同期します

uv sync

実行

以下で任意のパスの音声の文字お越しを行います

uv run python examples/python/basic_transcription.py path/to/audio.wav

また日本語の場合は以下のように実行します

uv run python examples/python/basic_transcription.py --language ja path/to/japanese_audio.wav