LabCore LLM

Cette documentation est le guide opérationnel pour exécuter LabCore de bout en bout: préparation des données, entraînement, inférence et export. Les pages EN dans docs/ restent la source de vérité, et les pages FR dans docs/fr/ sont des miroirs complets.

Preset de référence utilisé dans la documentation

Tous les exemples utilisent cette base:

Dataset: tinyshakespeare
Tokenizer: char
CONFIG_EXAMPLE = configs/base/base.toml
Override d'entraînement standard: --max-iters 5000
CHECKPOINT = checkpoints/ckpt_last.pt
META_TXT = data/processed/meta.json
META_BIN = data/meta.json

Tip

Gardez ces valeurs pour votre premier run complet. La plupart des erreurs viennent d'un mauvais alignement checkpoint/métadonnées.

Installation rapide

python -m pip install -e ".[torch,dev]"

Pour l'export Hugging Face et l'interface Gradio:

python -m pip install -e ".[torch,hf,demo]"

Commandes de démarrage rapide

python scripts/data/prepare_data.py --dataset tinyshakespeare --tokenizer char --output-format txt --output-dir data/processed
python train.py --config configs/base/base.toml --tokenizer char --max-iters 5000
python generate.py --checkpoint checkpoints/ckpt_last.pt --meta data/processed/meta.json --tokenizer char --prompt "To be"

Artefacts attendus:

checkpoints/ckpt_last.pt
checkpoints/train_log.json
data/processed/meta.json

Flux de bout en bout

scripts/data/prepare_data.py -> train.py -> generate.py/demo_gradio.py -> scripts/export/export_hf.py -> scripts/export/quantize_gguf.py

Plan de documentation

Guides

Démarrage: setup de l'environnement et premier run reproductible.
Pipeline de données: création des données txt ou bin et des métadonnées.
Entraînement: entraînement, checkpointing et mapping des formats.
Inférence et démo: génération CLI et démo Gradio.
Ajustement fin: workflow LoRA instruction tuning.
Export et déploiement: export HF et conversion GGUF.

LabCore LLM

Preset de référence utilisé dans la documentation

Installation rapide

Commandes de démarrage rapide

Flux de bout en bout

Plan de documentation

Guides

Référence

Développement

Suite / liens