初めに
rinnaさんからwhisperの競合になり得るモデルが出たので、触っていきます
rinnaは大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開しました。
— rinna Research (@rinna_research) 2023年12月7日
事前学習済みのHuBERTとGPTの間に畳み込み層を挟んで統合したモデルです。
↓プレスリリースhttps://t.co/LfQHvYhJZy
↓公開モデルhttps://t.co/4jyCvOpIVM
↓ベンチマークスコアhttps://t.co/Ies56FetBd pic.twitter.com/4RvfzLJazk
環境
- Colob T4
準備
ライブラリをインストールします
!pip install git+https://github.com/rinnakk/nue-asr.git !pip install deepspeed
推論
モデルのロード
import nue_asr model = nue_asr.load_model("rinna/nue-asr",fp16=True,use_deepspeed=True) tokenizer = nue_asr.load_tokenizer("rinna/nue-asr")
音声のテキスト化
今回は、irisiaprojectさんの音声ファイルを使用させていただきました
import time # 処理時間の計測開始 start_time = time.time() result = nue_asr.transcribe(model, tokenizer, "audio/VOICEACTRESS100_001.wav") # 処理時間の計測終了 end_time = time.time() # 処理にかかった時間(秒) processing_time = end_time - start_time # 処理時間と結果の出力 print(f"処理時間: {processing_time} 秒") print("正解文: [また、東寺のように、五大明王と呼ばれる、主要な明王の中央に配されることも多い。]") print(result.text)
使用したリソース