yousanのメモ

datasets経由でoscar-corpus/OSCAR-2301をダウンロードする

初めに
開発環境
ライブラリのインストール
データセットのダウンロード

初めに

テキストのコーパスとして以下のoscar-corpus/OSCAR-2301があります。こちらをダウンロードするコードのメモになります

開発環境

Ubuntu 22.02

ライブラリのインストール

!pip install datasets
!pip install zstandard

データセットのダウンロード

ja(日本語)のデータだけダウンロードします

from datasets import load_dataset

# ja(日本語)のデータセットをダウンロード
dataset = load_dataset("oscar-corpus/OSCAR-2301", "ja", split="train")

# データセットの情報を表示
print(dataset)