初めに
テキストのコーパスとして以下のoscar-corpus/OSCAR-2301があります。こちらをダウンロードするコードのメモになります
開発環境
- Ubuntu 22.02
ライブラリのインストール
!pip install datasets !pip install zstandard
データセットのダウンロード
ja(日本語)のデータだけダウンロードします
from datasets import load_dataset
# ja(日本語)のデータセットをダウンロード
dataset = load_dataset("oscar-corpus/OSCAR-2301", "ja", split="train")
# データセットの情報を表示
print(dataset)