Méthodologie des scores IA

Score global (0-100)

Chaque outil reçoit un score global pondéré sur 6 dimensions :

Performance modèle (25%) — benchmarks publics (MMLU, HumanEval, MT-Bench) + tests internes.
Rapport qualité-prix (20%) — coût par 1M tokens, plans gratuits, scalabilité.
Conformité RGPD & souveraineté (20%) — hébergement EU, DPA, sous-traitance, AI Act.
Écosystème & intégration (15%) — API, SDK, connecteurs, communauté.
Maturité produit (10%) — ancienneté, stabilité, roadmap publique.
Documentation & support (10%) — qualité docs FR, SLA, communauté active.

Sources de données

Documentations officielles, benchmarks publics (lmsys.org, Hugging Face Open LLM Leaderboard, Stanford HELM), pricing pages, terms of service, registres CNIL/ICO, et tests reproduits en interne sur prompts standardisés.

Mise à jour

Fiches outils : revue trimestrielle a minima, ou immédiate si changement majeur (release, changement de prix, incident sécurité). Les comparatifs sont régénérés à chaque mise à jour structurante.

Comparatifs (duels)

Format normalisé : 8 à 12 lignes (prix, contexte, modalités, hébergement, RGPD, fine-tune, API, communauté). Verdict structuré avec cas d'usage où chaque outil l'emporte. Aucun verdict "égalité molle" : chaque ligne désigne un gagnant ou explicite l'égalité.

Reproductibilité

Les prompts utilisés pour l'AI Visibility Score et les benchmarks internes sont documentés et disponibles sur demande pour audit (contact).

Limites

Les scores reflètent un état à un instant T sur un usage généraliste francophone. Un outil peut surperformer hors de ce périmètre. Les classements sectoriels (santé, finance, juridique) appliquent des pondérations adaptées documentées dans chaque page secteur.

Comment nous scorons l'IA