初めに

Web(transformers.js)やunityでLLMを使う際にフォーマットはONNXが嬉しいことが多々あります. そこで今回はLLMの変換を試してみます

こちらで実験的に各種モデルをONNXに変換したものは、以下にアップロードしています (各種モデルの使用は各モデルのライセンスに基づき使用してください)

環境

venvを使って環境を構築します

python3 -m venv env
source env/bin/activate

必要なライブラリのインストールします

pip install -r requirements.txt

以下のようにモデルIDを指定して、LLMのONNXを作成します

python -m scripts.convert --quantize --model_id {model_id}

保存されたモデルは models ディレクトリに保存されます

また量子化される際にはint8に変換されるみたいです

python -m scripts.convert --quantize --model_id bert-base-uncased

モデルは transformers.js/models/bert-base-uncased/onnx に保存されています。

python -m scripts.convert --quantize --model_id rinna/japanese-gpt2-xsmall

使用メモリは18GB程度でした

使用メモリが40GBを超えて100GBくらいまで使用しないと厳しそうです (こちらの環境ではメモリサイズoverで無理でした)

python -m scripts.convert --quantize --model_id cyberagent/calm2-7b-chat

計測時には、以下のコマンドで量子化モデルのオプションを入れずに計測をしています.
(肌感ですが、量子化モデルも同時に変換する場合は大体倍くらいのメモリを使うみたいでした).

また雑な計測なので、参考程度に...

python -m scripts.convert --model_id {model_id}

計測には、open-calm シリーズを使用しました