← Guides IA
ProductionExpert 24 minMis à jour mai 2026

Évaluation IA — Mesurer la qualité en production

Hallucinations, benchmarks, red teaming, monitoring : le manuel de l'eval IA.

Résumé exécutif
  • Sans évaluation systématique, aucune IA ne peut être déployée de façon responsable.
  • L'évaluation combine métriques automatiques, LLM-as-judge et revue humaine.
  • Les agents et le RAG nécessitent des grilles d'évaluation spécifiques.
  • Le monitoring continu détecte les drifts avant qu'ils n'impactent les utilisateurs.
Section 01

Pourquoi évaluer une IA ?

Une IA non évaluée est une IA qui dérive silencieusement. Trois enjeux : qualité produit, conformité réglementaire (AI Act exige des évaluations documentées), maîtrise des coûts (modèle ou prompt sous-optimal).

Section 02

Métriques de qualité

Trois familles complémentaires : métriques déterministes, métriques par modèle juge, retours humains.

TypeExemplesCoûtCouverture
DéterministesExact match, BLEU, ROUGETrès faibleLimitée
LLM-as-judgeFaithfulness, helpfulnessMoyenLarge
HumaineNotation 1-5, A/B blindÉlevéComplète
Section 03

Détecter les hallucinations

Trois techniques complémentaires : vérification par sources (RAG), self-consistency (plusieurs réponses comparées), entrainement d'un classifieur d'hallucinations.

Section 04

Benchmarks publics et limites

MMLU, HumanEval, MT-Bench, Arena : utiles pour comparer des modèles mais insuffisants pour qualifier votre cas d'usage. Construisez votre propre benchmark métier.

Un modèle qui domine MMLU peut être médiocre sur votre cas d'usage. Toujours créer un benchmark interne.
Section 05

Évaluer un système RAG

Trois axes spécifiques au RAG : context relevance (les chunks retournés sont-ils pertinents ?), faithfulness (la réponse est-elle fidèle aux sources ?), answer relevance (la réponse répond-elle à la question ?).

Section 06

Évaluer les agents IA

Les agents ajoutent : taux de succès de la tâche, nombre d'étapes, coût par exécution, qualité des choix d'outils, détection des boucles infinies. L'évaluation se fait par trace complète, pas par appel LLM isolé.

Section 07

Red teaming et sécurité

Le red teaming systématise les attaques : prompt injection, jailbreak, data leakage, bias amplification. Une fois par trimestre minimum sur tout système client-facing.

Section 08

Monitoring en production

Quatre signaux à monitorer en continu : latence, coût, taux d'erreur, drift sémantique des inputs. Alertes automatiques sur écart standard > 2σ.

Checklist opérationnelle

Avant de passer en production

  • Construire un dataset d'évaluation gold (200+ cas)
  • Définir 3 à 5 métriques pertinentes au cas d'usage
  • Automatiser les évaluations en CI/CD
  • Mettre en place LLM-as-judge avec un modèle juge différent
  • Programmer du red teaming trimestriel
  • Monitorer drift, coûts et erreurs en production
  • Documenter l'évaluation pour conformité AI Act
Questions fréquentes

FAQ

À quelle fréquence évaluer mon IA ?+

À chaque modification (prompt, modèle, RAG), à chaque nouvelle version d'un modèle utilisé, et en continu en production via monitoring automatique.

Comment construire un dataset d'évaluation ?+

Échantillonner 200-500 cas représentatifs depuis vos logs de production, annoter manuellement avec 2 reviewers, mesurer l'accord inter-annotateurs, itérer jusqu'à un kappa > 0,7.

LLM-as-judge est-il fiable ?+

Oui pour de nombreux cas, avec précautions : utiliser un modèle juge différent du modèle évalué, calibrer sur un échantillon humain, ne pas l'utiliser seul pour des décisions critiques.

Quels outils d'évaluation choisir ?+

LangSmith ou Langfuse pour le tracking complet, Ragas pour le RAG, Arize ou Galileo pour le monitoring production, Promptfoo pour les tests CI.

Glossaire IA

Termes clés

Hallucination
Réponse plausible mais factuellement incorrecte du modèle.
Red teaming
Tests adversariaux systématiques pour identifier les vulnérabilités.
Drift
Dérive progressive de la distribution des entrées ou sorties d'un modèle.
Kappa
Mesure statistique de l'accord entre annotateurs humains.
Passer à l'action

Évaluer votre stack IA

Audit complet de la qualité IA + mise en place du monitoring production.

Lancer l'audit IA