LLMs Open Source — Self-hosting et déploiement 2026
Llama, Mistral, DeepSeek, Qwen : déployer ses propres modèles en production.
- Les modèles open source rattrapent les modèles propriétaires : Llama 3.3 et DeepSeek V3 rivalisent avec GPT-4o.
- Le self-hosting devient rentable au-delà de 5M tokens/jour.
- vLLM s'impose comme inference engine standard (throughput 10-20× supérieur à l'API HF).
- Conformité totale : aucune donnée ne quitte votre infrastructure.
Pourquoi self-hoster ?
Quatre raisons motivent le self-hosting : souveraineté absolue, coûts à grande échelle, fine-tuning libre, contrôle des versions et du comportement. La contrepartie : complexité opérationnelle et expertise GPU.
Modèles open source à connaître
Cinq familles dominent l'open source en 2026.
| Modèle | Taille | Force | Licence |
|---|---|---|---|
| Llama 3.3 70B | 70B | Généraliste, FT communauté | Llama 3 |
| Mistral Large 2 | 123B | Multilingue, EU | Recherche/commerciale |
| DeepSeek V3 | 671B MoE | Coding, math | MIT-like |
| Qwen 2.5 72B | 72B | Multilingue Asie | Apache 2.0 |
| Mixtral 8x22B | 176B MoE | Polyvalent, vitesse | Apache 2.0 |
Choisir son GPU
Trois critères : VRAM (capacité), bande passante mémoire (vitesse), interconnexion (multi-GPU). La VRAM détermine la taille de modèle déployable.
- RTX 4090 (24 Go) : modèles 7-13B quantifiés
- A100 80 Go : modèles 70B quantifiés
- H100 80 Go : modèles 70B FP16, latence basse
- H200 141 Go : modèles 405B quantifiés
- Cluster 8× H100 : modèles 405B FP16 production
Inference engines
vLLM domine grâce au PagedAttention et au continuous batching. TGI (Hugging Face) reste solide pour les déploiements simples. Ollama pour le dev local.
Coûts réels self-hosted
Comparaison sur 30M tokens/mois.
| Setup | Modèle | Coût mensuel | Latence p50 |
|---|---|---|---|
| 1× A100 (cloud) | Llama 8B | 1 200 € | 60 ms |
| 4× A100 (cloud) | Llama 70B INT4 | 4 800 € | 150 ms |
| 8× H100 (cloud) | Llama 405B INT4 | 16 000 € | 400 ms |
| API OpenAI GPT-4o | — | Variable | — |
Mise en production
Stack typique : Kubernetes + KServe ou Ray Serve, observabilité Prometheus, autoscaling sur GPU utilization, queue pour gérer les pics. Le run book opérationnel doit couvrir OOM, drift et dégradation latence.
Avant de passer en production
- Estimer volume mensuel (tokens in + out)
- Choisir modèle selon use case et benchmark interne
- Provisionner GPU avec marge 30%
- Déployer vLLM ou TGI avec quantification
- Mettre en place observabilité (Prometheus + Grafana)
- Tester scaling horizontal sur réplicas
- Documenter procédure de rollback modèle
FAQ
Self-hosting ou API ?+
API jusqu'à environ 5M tokens/jour. Self-hosting au-delà, ou dès que la souveraineté est non négociable. Approche hybride courante : API pour le pic, self-host pour la base.
Quel modèle open source choisir ?+
Llama 3.3 pour la polyvalence, Mistral Large 2 pour le multilingue EU, DeepSeek V3 pour coding/math, Qwen 2.5 pour l'asiatique. Toujours benchmarker sur votre cas.
La quantification dégrade-t-elle la qualité ?+
INT8 : perte négligeable (< 1%). INT4 : 2-5% selon le modèle. Acceptable pour la plupart des usages production. AWQ et GPTQ donnent les meilleurs résultats.
Faut-il un cluster GPU ?+
Pour les modèles < 13B : non, un GPU suffit. Pour 70B+ : multi-GPU obligatoire. Pour 405B : cluster 8 GPUs minimum.
Termes clés
- Quantification
- Réduction de la précision des poids (FP16 → INT8/INT4) pour économiser VRAM.
- vLLM
- Inference engine optimisé pour le throughput grâce au PagedAttention.
- MoE
- Mixture of Experts — architecture sparse activant seulement une partie des paramètres.
- Continuous batching
- Technique groupant dynamiquement les requêtes pour maximiser le GPU.
Déployer un LLM open source en production
De la sélection du modèle au cluster GPU optimisé par nos architectes ML.
Lancer un projet self-hostedContinuer l'exploration
Choisir son LLM — Le Comparatif Ultime 2026
ChatGPT, Claude, Gemini, Mistral, Grok, DeepSeek, Llama : le guide de décision technique.
Fine-tuning — Spécialiser un LLM en pratique
LoRA, PEFT, datasets, GPU : le guide opérationnel du fine-tuning.
Déployer un Agent IA — De l'idée à la production
Architecture, mémoire, outils, MCP : le manuel des agents IA autonomes.