LLMs Open Source — Self-hosting et déploiement 2026

Q: Faut-il un cluster GPU ?

Pour les modèles < 13B : non, un GPU suffit. Pour 70B+ : multi-GPU obligatoire. Pour 405B : cluster 8 GPUs minimum.

Résumé exécutif

Les modèles open source rattrapent les modèles propriétaires : Llama 3.3 et DeepSeek V3 rivalisent avec GPT-4o.
Le self-hosting devient rentable au-delà de 5M tokens/jour.
vLLM s'impose comme inference engine standard (throughput 10-20× supérieur à l'API HF).
Conformité totale : aucune donnée ne quitte votre infrastructure.

Section 01

Pourquoi self-hoster ?

Quatre raisons motivent le self-hosting : souveraineté absolue, coûts à grande échelle, fine-tuning libre, contrôle des versions et du comportement. La contrepartie : complexité opérationnelle et expertise GPU.

Section 02

Modèles open source à connaître

Cinq familles dominent l'open source en 2026.

Modèle	Taille	Force	Licence
Llama 3.3 70B	70B	Généraliste, FT communauté	Llama 3
Mistral Large 2	123B	Multilingue, EU	Recherche/commerciale
DeepSeek V3	671B MoE	Coding, math	MIT-like
Qwen 2.5 72B	72B	Multilingue Asie	Apache 2.0
Mixtral 8x22B	176B MoE	Polyvalent, vitesse	Apache 2.0

Section 03

Choisir son GPU

Trois critères : VRAM (capacité), bande passante mémoire (vitesse), interconnexion (multi-GPU). La VRAM détermine la taille de modèle déployable.

RTX 4090 (24 Go) : modèles 7-13B quantifiés
A100 80 Go : modèles 70B quantifiés
H100 80 Go : modèles 70B FP16, latence basse
H200 141 Go : modèles 405B quantifiés
Cluster 8× H100 : modèles 405B FP16 production

Section 04

Inference engines

vLLM domine grâce au PagedAttention et au continuous batching. TGI (Hugging Face) reste solide pour les déploiements simples. Ollama pour le dev local.

Toujours benchmarker avec votre charge réelle : un modèle plus rapide en théorie peut perdre face à un bon batching.

Section 05

Coûts réels self-hosted

Comparaison sur 30M tokens/mois.

Setup	Modèle	Coût mensuel	Latence p50
1× A100 (cloud)	Llama 8B	1 200 €	60 ms
4× A100 (cloud)	Llama 70B INT4	4 800 €	150 ms
8× H100 (cloud)	Llama 405B INT4	16 000 €	400 ms
API OpenAI GPT-4o	—	Variable	—

Section 06

Mise en production

Stack typique : Kubernetes + KServe ou Ray Serve, observabilité Prometheus, autoscaling sur GPU utilization, queue pour gérer les pics. Le run book opérationnel doit couvrir OOM, drift et dégradation latence.

Checklist opérationnelle

Avant de passer en production

Estimer volume mensuel (tokens in + out)
Choisir modèle selon use case et benchmark interne
Provisionner GPU avec marge 30%
Déployer vLLM ou TGI avec quantification
Mettre en place observabilité (Prometheus + Grafana)
Tester scaling horizontal sur réplicas
Documenter procédure de rollback modèle

Questions fréquentes

FAQ

Self-hosting ou API ?+

API jusqu'à environ 5M tokens/jour. Self-hosting au-delà, ou dès que la souveraineté est non négociable. Approche hybride courante : API pour le pic, self-host pour la base.

Quel modèle open source choisir ?+

Llama 3.3 pour la polyvalence, Mistral Large 2 pour le multilingue EU, DeepSeek V3 pour coding/math, Qwen 2.5 pour l'asiatique. Toujours benchmarker sur votre cas.

La quantification dégrade-t-elle la qualité ?+

INT8 : perte négligeable (< 1%). INT4 : 2-5% selon le modèle. Acceptable pour la plupart des usages production. AWQ et GPTQ donnent les meilleurs résultats.

Faut-il un cluster GPU ?+

Pour les modèles < 13B : non, un GPU suffit. Pour 70B+ : multi-GPU obligatoire. Pour 405B : cluster 8 GPUs minimum.

Glossaire IA

Termes clés

Quantification: Réduction de la précision des poids (FP16 → INT8/INT4) pour économiser VRAM.
vLLM: Inference engine optimisé pour le throughput grâce au PagedAttention.
MoE: Mixture of Experts — architecture sparse activant seulement une partie des paramètres.
Continuous batching: Technique groupant dynamiquement les requêtes pour maximiser le GPU.

Passer à l'action

Déployer un LLM open source en production

De la sélection du modèle au cluster GPU optimisé par nos architectes ML.

Lancer un projet self-hosted