2024-01-25から1日間の記事一覧

cyberagent/calm2-7b-chat-dpo-experimentalを動かす

初めに環境準備実行モデルのロードサンプルプロンプトまどマギプロンプト初めに DPOを採用したチューニングでスコアが上がったとのことなので触ってみます CALM2をDirect Preference Optimization (DPO)でチューニングしたモデル calm2-7b-chat-dpo …