reazonspeech-k2-v2を動かす

初めに

reazon-researchが新しい音声認識モデルを公開されていたので触ってみます

以下に動かしたRepositoryを公開しています

github.com

開発環境

セットアップ

動かすための環境を作ります

uv venv -p 3.11
source venv/bin/activate

ライブラリをインストールします

git clone https://github.com/reazon-research/ReazonSpeech
uv pip install ReazonSpeech/pkg/k2-asr

文字お越しの実行

適当な音声ファイルを使って文字お越しを行います。今回は amphion/Emilia-Datasetの一音声を使ってみます

from reazonspeech.k2.asr import load_model, transcribe, audio_from_path

audio = audio_from_path("JA_B00000_S00529_W000007.mp3")
model = load_model()
ret = transcribe(model, audio)
print(ret.text)