初めに
以下のようにQLoRAを使ってfine turningを行いましたが、独自データを使いたい場合の適当方法についてやってみます
開発環境
- cuda:12.2.0-base-ubuntu22.04
- NVIDIA-L4
データ準備
まずは独自データを使う場合、以下のようなデータフォーマットを作ります
{"instruction": "指示内容(質問内容)", "input": "", "output": "回答テキスト", "text": ""}
datasetsを使ったローカルのjsonのロード
上記のファイルを output.jsonl
として保存します。またqloraのルートフォルダの中にjsonを入れます
その後540行目あたりを以下のように変更します
def load_data(dataset_name): if dataset_name == 'alpaca': return load_dataset("json", data_files="output.jsonl")