初めに
テキストのコーパスとして以下のoscar-corpus/OSCAR-2301があります。こちらをダウンロードするコードのメモになります
開発環境
- Ubuntu 22.02
ライブラリのインストール
!pip install datasets !pip install zstandard
データセットのダウンロード
ja(日本語)のデータだけダウンロードします
from datasets import load_dataset # ja(日本語)のデータセットをダウンロード dataset = load_dataset("oscar-corpus/OSCAR-2301", "ja", split="train") # データセットの情報を表示 print(dataset)