yousanのメモ

rinna/nue-asrをGoogleColobで動かす

AI

初めに
環境
準備
推論

初めに

rinnaさんからwhisperの競合になり得るモデルが出たので、触っていきます

rinnaは大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開しました。
事前学習済みのHuBERTとGPTの間に畳み込み層を挟んで統合したモデルです。

↓プレスリリースhttps://t.co/LfQHvYhJZy

↓公開モデルhttps://t.co/4jyCvOpIVM

↓ベンチマークスコアhttps://t.co/Ies56FetBd pic.twitter.com/4RvfzLJazk
— rinna Research (@rinna_research) 2023年12月7日

環境

Colob T4

準備

ライブラリをインストールします

!pip install git+https://github.com/rinnakk/nue-asr.git
!pip install deepspeed

推論

モデルのロード

import nue_asr

model = nue_asr.load_model("rinna/nue-asr",fp16=True,use_deepspeed=True)
tokenizer = nue_asr.load_tokenizer("rinna/nue-asr")

音声のテキスト化

今回は、irisiaprojectさんの音声ファイルを使用させていただきました

www.irisiaproject.com

import time
# 処理時間の計測開始
start_time = time.time()
result = nue_asr.transcribe(model, tokenizer, "audio/VOICEACTRESS100_001.wav")

# 処理時間の計測終了
end_time = time.time()

# 処理にかかった時間（秒）
processing_time = end_time - start_time
# 処理時間と結果の出力
print(f"処理時間: {processing_time} 秒")
print("正解文: [また、東寺のように、五大明王と呼ばれる、主要な明王の中央に配されることも多い。]")
print(result.text)

使用したリソース