独自データを使用してQLoRAでfine turningする

初めに

以下のようにQLoRAを使ってfine turningを行いましたが、独自データを使いたい場合の適当方法についてやってみます

ayousanz.hatenadiary.jp

開発環境

  • cuda:12.2.0-base-ubuntu22.04
  • NVIDIA-L4

データ準備

まずは独自データを使う場合、以下のようなデータフォーマットを作ります

{"instruction": "指示内容(質問内容)", "input": "", "output": "回答テキスト", "text": ""}

datasetsを使ったローカルのjsonのロード

上記のファイルを output.jsonl として保存します。またqloraのルートフォルダの中にjsonを入れます

その後540行目あたりを以下のように変更します

    def load_data(dataset_name):
        if dataset_name == 'alpaca':
            return load_dataset("json", data_files="output.jsonl")