Pipeline de données
Utilisez cette page pour préparer les données et les métadonnées avec une structure de sortie prévisible. Prérequis: dépendances installées depuis Démarrage.
Commandes
Pipeline txt de référence (utilisé par configs/base/base.toml):
python scripts/data/prepare_data.py \
--dataset tinyshakespeare \
--tokenizer char \
--output-format txt \
--raw-dir data/raw \
--output-dir data/processed \
--val-ratio 0.1
Pipeline bin alternatif:
python scripts/data/prepare_data.py \
--dataset tinyshakespeare \
--tokenizer char \
--output-format bin \
--raw-dir data/raw \
--output-dir data/processed \
--val-ratio 0.1
Fichiers de sortie / artefacts produits
Format txt (output-dir = data/processed):
data/processed/train.txtdata/processed/val.txtdata/processed/corpus.txtdata/processed/train.npydata/processed/val.npydata/processed/meta.json(META_TXT)
Format bin:
data/train.bindata/val.bindata/meta.json(META_BIN)
Note
Avec --output-format bin, si --output-dir se termine par processed, les fichiers binaires sont écrits dans le parent (data/).
Sélection du format
- Utilisez
txtavectraining.data_format = "txt"et la métadonnéedata/processed/meta.json. - Utilisez
binavectraining.data_format = "bin"et la métadonnéedata/meta.json.
Erreurs fréquentes
- Binaires manquants: voir Binary shards not found.
- Mauvais chemin de métadonnées: voir Meta path mismatch.
- Problème de vocabulaire char: voir Char vocab missing.