2024-03-14から1日間の記事一覧

GaLoreを使って0.01Bモデル(EN)を作ってみる(モデルが保存できない)

AI

初めに 環境環境 準備 学習 初めに LoRAよりもメモリ効率がよく学習ができる手法であるGaLoreで試してみます 論文のabstractの日本語訳は以下です(claude 3 opus を使用) 大規模言語モデル(LLM)の学習では、重みと最適化器の状態のサイズが増大するため、…