Évaluation IA — Mesurer la qualité en production
Hallucinations, benchmarks, red teaming, monitoring : le manuel de l'eval IA.
- Sans évaluation systématique, aucune IA ne peut être déployée de façon responsable.
- L'évaluation combine métriques automatiques, LLM-as-judge et revue humaine.
- Les agents et le RAG nécessitent des grilles d'évaluation spécifiques.
- Le monitoring continu détecte les drifts avant qu'ils n'impactent les utilisateurs.
Pourquoi évaluer une IA ?
Une IA non évaluée est une IA qui dérive silencieusement. Trois enjeux : qualité produit, conformité réglementaire (AI Act exige des évaluations documentées), maîtrise des coûts (modèle ou prompt sous-optimal).
Métriques de qualité
Trois familles complémentaires : métriques déterministes, métriques par modèle juge, retours humains.
| Type | Exemples | Coût | Couverture |
|---|---|---|---|
| Déterministes | Exact match, BLEU, ROUGE | Très faible | Limitée |
| LLM-as-judge | Faithfulness, helpfulness | Moyen | Large |
| Humaine | Notation 1-5, A/B blind | Élevé | Complète |
Détecter les hallucinations
Trois techniques complémentaires : vérification par sources (RAG), self-consistency (plusieurs réponses comparées), entrainement d'un classifieur d'hallucinations.
Benchmarks publics et limites
MMLU, HumanEval, MT-Bench, Arena : utiles pour comparer des modèles mais insuffisants pour qualifier votre cas d'usage. Construisez votre propre benchmark métier.
Évaluer un système RAG
Trois axes spécifiques au RAG : context relevance (les chunks retournés sont-ils pertinents ?), faithfulness (la réponse est-elle fidèle aux sources ?), answer relevance (la réponse répond-elle à la question ?).
Évaluer les agents IA
Les agents ajoutent : taux de succès de la tâche, nombre d'étapes, coût par exécution, qualité des choix d'outils, détection des boucles infinies. L'évaluation se fait par trace complète, pas par appel LLM isolé.
Red teaming et sécurité
Le red teaming systématise les attaques : prompt injection, jailbreak, data leakage, bias amplification. Une fois par trimestre minimum sur tout système client-facing.
Monitoring en production
Quatre signaux à monitorer en continu : latence, coût, taux d'erreur, drift sémantique des inputs. Alertes automatiques sur écart standard > 2σ.
Avant de passer en production
- Construire un dataset d'évaluation gold (200+ cas)
- Définir 3 à 5 métriques pertinentes au cas d'usage
- Automatiser les évaluations en CI/CD
- Mettre en place LLM-as-judge avec un modèle juge différent
- Programmer du red teaming trimestriel
- Monitorer drift, coûts et erreurs en production
- Documenter l'évaluation pour conformité AI Act
FAQ
À quelle fréquence évaluer mon IA ?+
À chaque modification (prompt, modèle, RAG), à chaque nouvelle version d'un modèle utilisé, et en continu en production via monitoring automatique.
Comment construire un dataset d'évaluation ?+
Échantillonner 200-500 cas représentatifs depuis vos logs de production, annoter manuellement avec 2 reviewers, mesurer l'accord inter-annotateurs, itérer jusqu'à un kappa > 0,7.
LLM-as-judge est-il fiable ?+
Oui pour de nombreux cas, avec précautions : utiliser un modèle juge différent du modèle évalué, calibrer sur un échantillon humain, ne pas l'utiliser seul pour des décisions critiques.
Quels outils d'évaluation choisir ?+
LangSmith ou Langfuse pour le tracking complet, Ragas pour le RAG, Arize ou Galileo pour le monitoring production, Promptfoo pour les tests CI.
Termes clés
- Hallucination
- Réponse plausible mais factuellement incorrecte du modèle.
- Red teaming
- Tests adversariaux systématiques pour identifier les vulnérabilités.
- Drift
- Dérive progressive de la distribution des entrées ou sorties d'un modèle.
- Kappa
- Mesure statistique de l'accord entre annotateurs humains.
Évaluer votre stack IA
Audit complet de la qualité IA + mise en place du monitoring production.
Lancer l'audit IAContinuer l'exploration
RAG — Retrieval-Augmented Generation en pratique
Embeddings, vector DB, chunking, hybrid search : l'architecture RAG enterprise.
Déployer un Agent IA — De l'idée à la production
Architecture, mémoire, outils, MCP : le manuel des agents IA autonomes.
Prompt Engineering — Le Guide de Référence
Du zero-shot au prompting agents, la grammaire complète des LLMs modernes.