はじめに

以下のLLMを動かしていきます

GitHubは以下みたいです

環境

Linux CLI
GPU (L4 GPU : GPU RAM 24GB)

準備

conda create -y --name openchat python=3.11
conda activate openchat

pip3 install ochat

推論

今回は推論側をローカルサーバーで実行して推論を行なっていきます。そのため、サーバー側とクライアント側の両方で実行します.

推論サーバー

python -m ochat.serving.openai_api_server --model openchat/openchat-3.5-1210

推論APIを叩く

curl http://localhost:18888/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "model": "openchat_3.5",
    "messages": [{"role": "user", "content": "まどマギで一番可愛いキャラはなんですか？"}]
  }'

結果

{"id":"cmpl-3cc0b40646f14da7971b3438124c572c","object":"chat.completion","created":1702948565,"model":"openchat_3.5","choices":[{"index":0,"message":{"role":"assistant","content":"まどマギの世界には、いくつかの可愛いキャラクターがいます。でも、特に可愛いキャラクターには、エイリーン（エアリン）という魔法の騎士があります。エイリーンは、煌めく髪のために、愛されるように盛り上がり、白い剣を使って戦います。また、エイリーンは、マッド・マギを愛している姿が、さまざまな小さな子供にとって、絶対に可愛いものです。"},"finish_reason":"stop"}],"usage