初めに
Unityを使って音声認識をする場合、日本語の音声認識のローカルモデルはほぼないです。今回は、vosk-unity-asr (リンク先はfork版) を使って動かしてみます
開発環境
- unity 6000.x.x
実行
リポジトリをcloneすると以下のように動かすことができます。

モデルからのレスポンスは以下のようになっています。そのため、この中から一番上のものを選んでUIに表示します
{ "alternatives" : [{ "confidence" : 217.502853, "text" : " 今日 は いい 天気 です ねー" }, { "confidence" : 216.123047, "text" : " 今日 は いい 天気 です ね" }, { "confidence" : 216.009949, "text" : " 今日 は いい 天気 です ねぇ" }] }