Performances
Utilisez le script de benchmark d'inférence pour mesurer de manière reproductible les tokens/s et le pic de VRAM.
Le script prend en charge les checkpoints locaux et les dépôts Hugging Face, avec export JSON et Markdown.
Script de benchmark d'inférence
Le runtime par défaut reste court (warmup + 3 exécutions mesurées).
Exemple local
python scripts/benchmark/benchmark_infer.py \
--source local \
--checkpoint checkpoints/ckpt_last.pt \
--meta data/processed/meta.json \
--tokenizer char \
--config configs/base/base.toml \
--device cpu \
--json-out outputs/bench_infer.json \
--md-out outputs/bench_infer.md
Exemple Hugging Face
python scripts/benchmark/benchmark_infer.py \
--source hf \
--repo-id LabCoreAI/<id> \
--config configs/base/base.toml \
--device cuda \
--json-out outputs/bench_infer_hf.json \
--md-out outputs/bench_infer_hf.md
Mesures effectuées
- Génération de warmup (
--warmup-tokens, non comptée dans le débit final). - Génération mesurée (
--gen-tokens) répétée--itersfois. - Résumé du débit:
mean,min,maxtokens/sec. - Pic de VRAM (
torch.cuda.max_memory_allocated) en exécution CUDA.
Les réglages de reproductibilité sont lus dans [generation] quand --config est fourni:
seed(graine d'initialisation)deterministic- réglages de sampling (
temperature,top_k,top_p,repetition_penalty) use_kv_cache(sauf surcharge via flags CLI)
Schéma de sortie JSON (résumé)
{
"timestamp": "...",
"commit": "...",
"platform": {"os": "...", "python": "..."},
"torch": {"version": "...", "cuda": "..."},
"device": {"type": "cpu|cuda", "name": "..."},
"model": {"source": "local|hf", "params_m": 0.0, "block_size": 0, "n_layer": 0, "n_head": 0, "n_embd": 0},
"generation": {"prompt": "...", "gen_tokens": 256, "temperature": 0.9, "top_k": 40, "top_p": 1.0, "repetition_penalty": 1.0, "use_kv_cache": true},
"results": {"iters": 3, "tokens_per_sec": {"mean": 0.0, "min": 0.0, "max": 0.0}, "vram_peak_mib": null}
}
Résultats communauté
Collez la ligne Markdown générée (via --md-out ou la sortie terminal) dans ce tableau.
Ajoutez le JSON dans la description de PR si disponible.
| Périphérique | Source | Taille du modèle (params M) | KV-cache | gen_tokens | mean tok/s | pic VRAM MiB |
|---|---|---|---|---|---|---|
| votre résultat | local/hf | 0.000 | on/off | 256 | 0.00 | N/A ou valeur |