Aller au contenu

LabCore LLM

Cette documentation est le guide opérationnel pour exécuter LabCore de bout en bout: préparation des données, entraînement, inférence et export. Les pages EN dans docs/ restent la source de vérité, et les pages FR dans docs/fr/ sont des miroirs complets.

Python PyTorch License

Preset de référence utilisé dans la documentation

Tous les exemples utilisent cette base:

  • Dataset: tinyshakespeare
  • Tokenizer: char
  • CONFIG_EXAMPLE = configs/base/base.toml
  • Override d'entraînement standard: --max-iters 5000
  • CHECKPOINT = checkpoints/ckpt_last.pt
  • META_TXT = data/processed/meta.json
  • META_BIN = data/meta.json

Tip

Gardez ces valeurs pour votre premier run complet. La plupart des erreurs viennent d'un mauvais alignement checkpoint/métadonnées.

Installation rapide

python -m pip install -e ".[torch,dev]"

Pour l'export Hugging Face et l'interface Gradio:

python -m pip install -e ".[torch,hf,demo]"

Commandes de démarrage rapide

python scripts/data/prepare_data.py --dataset tinyshakespeare --tokenizer char --output-format txt --output-dir data/processed
python train.py --config configs/base/base.toml --tokenizer char --max-iters 5000
python generate.py --checkpoint checkpoints/ckpt_last.pt --meta data/processed/meta.json --tokenizer char --prompt "To be"

Artefacts attendus:

  • checkpoints/ckpt_last.pt
  • checkpoints/train_log.json
  • data/processed/meta.json

Flux de bout en bout

scripts/data/prepare_data.py -> train.py -> generate.py/demo_gradio.py -> scripts/export/export_hf.py -> scripts/export/quantize_gguf.py

Plan de documentation

Guides

Référence

Développement

Suite / liens