← Guides IA
ArchitectureExpert 30 minMis à jour mai 2026

RAG — Retrieval-Augmented Generation en pratique

Embeddings, vector DB, chunking, hybrid search : l'architecture RAG enterprise.

Résumé exécutif
  • Le RAG combine recherche documentaire et génération pour ancrer les réponses dans des sources contrôlées.
  • L'hybrid search (sémantique + lexical) surpasse systématiquement la recherche purement vectorielle.
  • Le chunking est le facteur de qualité le plus sous-estimé : 80% des échecs RAG viennent de là.
  • Une architecture RAG enterprise inclut filtres ACL, citations vérifiables et évaluation continue.
Section 01

Qu'est-ce que le RAG ?

RAG = retrieve (chercher des passages pertinents) + augment (les injecter dans le prompt) + generate (laisser le LLM répondre). Il résout deux problèmes des LLMs : connaissances figées et hallucinations sur les données métier.

Section 02

Pourquoi utiliser le RAG ?

Le RAG est la première brique de toute IA d'entreprise crédible. Quatre raisons fondamentales.

  • Connaissances à jour sans ré-entraînement
  • Citations vérifiables (audit, conformité)
  • Contrôle des sources (ACL, gouvernance)
  • Coûts maîtrisés vs fine-tuning
Section 03

Embeddings — Choisir son modèle

L'embedding transforme un texte en vecteur. Le choix du modèle d'embedding détermine la qualité de recherche.

ModèleDimensionsCoût /1MMultilingue
OpenAI text-embedding-3-large3072$0.13Excellent
Cohere embed-multilingual-v31024$0.10Excellent
Mistral embed1024$0.10Très bon
BGE-M3 (open-source)1024Self-hostedExcellent
Section 04

Vector databases comparées

Le choix de la vector DB dépend du volume, de la latence cible et de votre stack existante.

  • Qdrant : open-source, performant, filtres avancés
  • Pinecone : managé, scaling automatique, premium
  • Weaviate : modulaire, hybrid search natif
  • pgvector : extension PostgreSQL, idéal si déjà sur Postgres
  • Chroma : prototypage et petits volumes
Section 05

Chunking — Le facteur critique

Le découpage des documents est la décision la plus impactante. Trois stratégies à combiner.

  • Chunking fixe : 500-1000 tokens, overlap 10-20%
  • Chunking sémantique : par paragraphe ou section logique
  • Chunking récursif : hiérarchique (document → section → paragraphe)
Testez systématiquement 3 stratégies de chunking sur le même corpus. L'écart de qualité atteint régulièrement 30%.
Section 07

RAG enterprise — Architecture complète

Un RAG production ajoute : ACL par utilisateur, citations cliquables, cache de retrieval, évaluateur continu (faithfulness, relevance), versioning de l'index, observabilité bout-en-bout.

Checklist opérationnelle

Avant de passer en production

  • Définir les sources documentaires et leur fraîcheur
  • Choisir embedding + vector DB selon volume
  • Tester 3 stratégies de chunking sur un dataset
  • Implémenter hybrid search dès le début
  • Ajouter un reranker (Cohere ou BGE)
  • Mesurer faithfulness, context relevance, answer relevance
  • Gérer ACL et filtres au niveau du retrieval, pas du LLM
Questions fréquentes

FAQ

RAG ou fine-tuning ?+

RAG pour les connaissances dynamiques et vérifiables. Fine-tuning pour le comportement et le style. Les deux se combinent souvent.

Quelle vector DB choisir ?+

pgvector si vous êtes déjà sur Postgres. Qdrant pour open-source performant. Pinecone pour zéro gestion et scaling automatique.

Combien coûte un RAG en production ?+

Embeddings : 50-500 €/mois pour la plupart des PME. Vector DB : 0-300 € selon le choix. LLM : variable selon volumes. Comptez 200-2 000 €/mois total.

Le RAG hallucine-t-il toujours ?+

Le RAG réduit drastiquement les hallucinations mais ne les supprime pas. La parade : citations obligatoires, évaluateur de faithfulness, fallback explicite ('je ne sais pas').

Glossaire IA

Termes clés

Embedding
Vecteur numérique représentant la sémantique d'un texte.
BM25
Algorithme classique de recherche lexicale par TF-IDF amélioré.
Reranking
Second classement des résultats par un modèle plus précis.
Faithfulness
Mesure de la cohérence entre la réponse et les sources fournies.
Passer à l'action

Déployer une architecture RAG

De l'audit documentaire au déploiement production par nos architectes RAG.

Concevoir mon RAG