Aller au contenu

Pipeline de données

Utilisez cette page pour préparer les données et les métadonnées avec une structure de sortie prévisible. Prérequis: dépendances installées depuis Démarrage.

Commandes

Pipeline txt de référence (utilisé par configs/base/base.toml):

python scripts/data/prepare_data.py \
  --dataset tinyshakespeare \
  --tokenizer char \
  --output-format txt \
  --raw-dir data/raw \
  --output-dir data/processed \
  --val-ratio 0.1

Pipeline bin alternatif:

python scripts/data/prepare_data.py \
  --dataset tinyshakespeare \
  --tokenizer char \
  --output-format bin \
  --raw-dir data/raw \
  --output-dir data/processed \
  --val-ratio 0.1

Fichiers de sortie / artefacts produits

Format txt (output-dir = data/processed):

  • data/processed/train.txt
  • data/processed/val.txt
  • data/processed/corpus.txt
  • data/processed/train.npy
  • data/processed/val.npy
  • data/processed/meta.json (META_TXT)

Format bin:

  • data/train.bin
  • data/val.bin
  • data/meta.json (META_BIN)

Note

Avec --output-format bin, si --output-dir se termine par processed, les fichiers binaires sont écrits dans le parent (data/).

Sélection du format

  • Utilisez txt avec training.data_format = "txt" et la métadonnée data/processed/meta.json.
  • Utilisez bin avec training.data_format = "bin" et la métadonnée data/meta.json.

Erreurs fréquentes

Suite / liens