はじめに
以下のLLMを動かしていきます
GitHubは以下みたいです
環境
準備
conda create -y --name openchat python=3.11 conda activate openchat pip3 install ochat
推論
今回は推論側をローカルサーバーで実行して推論を行なっていきます。 そのため、サーバー側とクライアント側の両方で実行します.
推論サーバー
python -m ochat.serving.openai_api_server --model openchat/openchat-3.5-1210
推論APIを叩く
curl http://localhost:18888/v1/chat/completions -H "Content-Type: application/json" -d '{ "model": "openchat_3.5", "messages": [{"role": "user", "content": "まどマギで一番可愛いキャラはなんですか?"}] }'
結果
{"id":"cmpl-3cc0b40646f14da7971b3438124c572c","object":"chat.completion","created":1702948565,"model":"openchat_3.5","choices":[{"index":0,"message":{"role":"assistant","content":"まどマギの世界には、いくつかの可愛いキャラクターがいます。でも、特に可愛いキャラクターには、エイリーン(エアリン)という魔法の騎士があります。エイリーンは、煌めく髪のために、愛されるように盛り上がり、白い剣を使って戦います。また、エイリーンは、マッド・マギを愛している姿が、さまざまな小さな子供にとって、絶対に可愛いものです。"},"finish_reason":"stop"}],"usage
使用リソース
大体20GBほどでした
備考
UIで使用したい場合は、以下のライブラリが使えそうです