rinna/nue-asrをGoogleColobで動かす

初めに

rinnaさんからwhisperの競合になり得るモデルが出たので、触っていきます

環境

  • Colob T4

準備

ライブラリをインストールします

!pip install git+https://github.com/rinnakk/nue-asr.git
!pip install deepspeed

推論

モデルのロード

import nue_asr

model = nue_asr.load_model("rinna/nue-asr",fp16=True,use_deepspeed=True)
tokenizer = nue_asr.load_tokenizer("rinna/nue-asr")

音声のテキスト化

今回は、irisiaprojectさんの音声ファイルを使用させていただきました

www.irisiaproject.com

import time
# 処理時間の計測開始
start_time = time.time()
result = nue_asr.transcribe(model, tokenizer, "audio/VOICEACTRESS100_001.wav")

# 処理時間の計測終了
end_time = time.time()

# 処理にかかった時間(秒)
processing_time = end_time - start_time
# 処理時間と結果の出力
print(f"処理時間: {processing_time} 秒")
print("正解文: [また、東寺のように、五大明王と呼ばれる、主要な明王の中央に配されることも多い。]")
print(result.text)

使用したリソース