2024-01-25から1日間の記事一覧

cyberagent/calm2-7b-chat-dpo-experimentalを動かす

AI

初めに 環境 準備 実行 モデルのロード サンプルプロンプト まどマギプロンプト 初めに DPOを採用したチューニングでスコアが上がったとのことなので触ってみます CALM2をDirect Preference Optimization (DPO)でチューニングしたモデル calm2-7b-chat-dpo …