初めに
reazon-researchが新しい音声認識モデルを公開されていたので触ってみます
🚀ReazonSpeech v2.1をリリースしました!
— Reazon Human Interaction Lab (@ReazonHILab) 2024年8月1日
v2.1で追加した新しい日本語ASRモデル、ReazonSpeech-k2-v2はONNXフォーマットで提供され、さまざまな環境で動作します。計算能力の限られたデバイス向けに量子化バージョンも提供しています。
詳細はこちらのブログをご覧ください!https://t.co/lXDcR1ONu1
以下に動かしたRepositoryを公開しています
開発環境
- Windows11
- python 3.11
- uv
セットアップ
動かすための環境を作ります
uv venv -p 3.11 source venv/bin/activate
ライブラリをインストールします
git clone https://github.com/reazon-research/ReazonSpeech uv pip install ReazonSpeech/pkg/k2-asr
文字お越しの実行
適当な音声ファイルを使って文字お越しを行います。今回は amphion/Emilia-Datasetの一音声を使ってみます
from reazonspeech.k2.asr import load_model, transcribe, audio_from_path audio = audio_from_path("JA_B00000_S00529_W000007.mp3") model = load_model() ret = transcribe(model, audio) print(ret.text)