初めに
リアルタイム音声アプリケーション向けのオンデバイス音声認識(STT)ライブラリでマルチプラットフォームに対応している Moonshine Voiceを触ってみます
開発環境
- Windows 11
- uv 0.9.x
- cuda 13.0
環境構築
以下のように依存ライブラリを追加します
uv python pin 3.12 uv add moonshine-voice
project.yamlは以下のようになります
[project] name = "moonshine" version = "0.1.0" description = "Add your description here" readme = "README.md" requires-python = ">=3.12" dependencies = [ "datasets>=4.6.1", "moonshine-voice>=0.0.49", "soundfile>=0.13.1", ]
以下で依存ライブラリを同期します
uv sync
実行
以下で任意のパスの音声の文字お越しを行います
uv run python examples/python/basic_transcription.py path/to/audio.wav
また日本語の場合は以下のように実行します
uv run python examples/python/basic_transcription.py --language ja path/to/japanese_audio.wav