← Guides IA
AvancéExpert 27 minMis à jour mai 2026

LLMs Open Source — Self-hosting et déploiement 2026

Llama, Mistral, DeepSeek, Qwen : déployer ses propres modèles en production.

Résumé exécutif
  • Les modèles open source rattrapent les modèles propriétaires : Llama 3.3 et DeepSeek V3 rivalisent avec GPT-4o.
  • Le self-hosting devient rentable au-delà de 5M tokens/jour.
  • vLLM s'impose comme inference engine standard (throughput 10-20× supérieur à l'API HF).
  • Conformité totale : aucune donnée ne quitte votre infrastructure.
Section 01

Pourquoi self-hoster ?

Quatre raisons motivent le self-hosting : souveraineté absolue, coûts à grande échelle, fine-tuning libre, contrôle des versions et du comportement. La contrepartie : complexité opérationnelle et expertise GPU.

Section 02

Modèles open source à connaître

Cinq familles dominent l'open source en 2026.

ModèleTailleForceLicence
Llama 3.3 70B70BGénéraliste, FT communautéLlama 3
Mistral Large 2123BMultilingue, EURecherche/commerciale
DeepSeek V3671B MoECoding, mathMIT-like
Qwen 2.5 72B72BMultilingue AsieApache 2.0
Mixtral 8x22B176B MoEPolyvalent, vitesseApache 2.0
Section 03

Choisir son GPU

Trois critères : VRAM (capacité), bande passante mémoire (vitesse), interconnexion (multi-GPU). La VRAM détermine la taille de modèle déployable.

  • RTX 4090 (24 Go) : modèles 7-13B quantifiés
  • A100 80 Go : modèles 70B quantifiés
  • H100 80 Go : modèles 70B FP16, latence basse
  • H200 141 Go : modèles 405B quantifiés
  • Cluster 8× H100 : modèles 405B FP16 production
Section 04

Inference engines

vLLM domine grâce au PagedAttention et au continuous batching. TGI (Hugging Face) reste solide pour les déploiements simples. Ollama pour le dev local.

Toujours benchmarker avec votre charge réelle : un modèle plus rapide en théorie peut perdre face à un bon batching.
Section 05

Coûts réels self-hosted

Comparaison sur 30M tokens/mois.

SetupModèleCoût mensuelLatence p50
1× A100 (cloud)Llama 8B1 200 €60 ms
4× A100 (cloud)Llama 70B INT44 800 €150 ms
8× H100 (cloud)Llama 405B INT416 000 €400 ms
API OpenAI GPT-4oVariable
Section 06

Mise en production

Stack typique : Kubernetes + KServe ou Ray Serve, observabilité Prometheus, autoscaling sur GPU utilization, queue pour gérer les pics. Le run book opérationnel doit couvrir OOM, drift et dégradation latence.

Checklist opérationnelle

Avant de passer en production

  • Estimer volume mensuel (tokens in + out)
  • Choisir modèle selon use case et benchmark interne
  • Provisionner GPU avec marge 30%
  • Déployer vLLM ou TGI avec quantification
  • Mettre en place observabilité (Prometheus + Grafana)
  • Tester scaling horizontal sur réplicas
  • Documenter procédure de rollback modèle
Questions fréquentes

FAQ

Self-hosting ou API ?+

API jusqu'à environ 5M tokens/jour. Self-hosting au-delà, ou dès que la souveraineté est non négociable. Approche hybride courante : API pour le pic, self-host pour la base.

Quel modèle open source choisir ?+

Llama 3.3 pour la polyvalence, Mistral Large 2 pour le multilingue EU, DeepSeek V3 pour coding/math, Qwen 2.5 pour l'asiatique. Toujours benchmarker sur votre cas.

La quantification dégrade-t-elle la qualité ?+

INT8 : perte négligeable (< 1%). INT4 : 2-5% selon le modèle. Acceptable pour la plupart des usages production. AWQ et GPTQ donnent les meilleurs résultats.

Faut-il un cluster GPU ?+

Pour les modèles < 13B : non, un GPU suffit. Pour 70B+ : multi-GPU obligatoire. Pour 405B : cluster 8 GPUs minimum.

Glossaire IA

Termes clés

Quantification
Réduction de la précision des poids (FP16 → INT8/INT4) pour économiser VRAM.
vLLM
Inference engine optimisé pour le throughput grâce au PagedAttention.
MoE
Mixture of Experts — architecture sparse activant seulement une partie des paramètres.
Continuous batching
Technique groupant dynamiquement les requêtes pour maximiser le GPU.
Passer à l'action

Déployer un LLM open source en production

De la sélection du modèle au cluster GPU optimisé par nos architectes ML.

Lancer un projet self-hosted