Comment nous scorons l'IA
Critères, pondérations et processus de mise à jour des fiches, scores et comparatifs.
Score global (0-100)
Chaque outil reçoit un score global pondéré sur 6 dimensions :
- Performance modèle (25%) — benchmarks publics (MMLU, HumanEval, MT-Bench) + tests internes.
- Rapport qualité-prix (20%) — coût par 1M tokens, plans gratuits, scalabilité.
- Conformité RGPD & souveraineté (20%) — hébergement EU, DPA, sous-traitance, AI Act.
- Écosystème & intégration (15%) — API, SDK, connecteurs, communauté.
- Maturité produit (10%) — ancienneté, stabilité, roadmap publique.
- Documentation & support (10%) — qualité docs FR, SLA, communauté active.
Sources de données
Documentations officielles, benchmarks publics (lmsys.org, Hugging Face Open LLM Leaderboard, Stanford HELM), pricing pages, terms of service, registres CNIL/ICO, et tests reproduits en interne sur prompts standardisés.
Mise à jour
Fiches outils : revue trimestrielle a minima, ou immédiate si changement majeur (release, changement de prix, incident sécurité). Les comparatifs sont régénérés à chaque mise à jour structurante.
Comparatifs (duels)
Format normalisé : 8 à 12 lignes (prix, contexte, modalités, hébergement, RGPD, fine-tune, API, communauté). Verdict structuré avec cas d'usage où chaque outil l'emporte. Aucun verdict "égalité molle" : chaque ligne désigne un gagnant ou explicite l'égalité.
Reproductibilité
Les prompts utilisés pour l'AI Visibility Score et les benchmarks internes sont documentés et disponibles sur demande pour audit (contact).
Limites
Les scores reflètent un état à un instant T sur un usage généraliste francophone. Un outil peut surperformer hors de ce périmètre. Les classements sectoriels (santé, finance, juridique) appliquent des pondérations adaptées documentées dans chaque page secteur.