RAG — Retrieval-Augmented Generation en pratique

Résumé exécutif

Le RAG combine recherche documentaire et génération pour ancrer les réponses dans des sources contrôlées.
L'hybrid search (sémantique + lexical) surpasse systématiquement la recherche purement vectorielle.
Le chunking est le facteur de qualité le plus sous-estimé : 80% des échecs RAG viennent de là.
Une architecture RAG enterprise inclut filtres ACL, citations vérifiables et évaluation continue.

Section 01

Qu'est-ce que le RAG ?

RAG = retrieve (chercher des passages pertinents) + augment (les injecter dans le prompt) + generate (laisser le LLM répondre). Il résout deux problèmes des LLMs : connaissances figées et hallucinations sur les données métier.

Section 02

Pourquoi utiliser le RAG ?

Le RAG est la première brique de toute IA d'entreprise crédible. Quatre raisons fondamentales.

Connaissances à jour sans ré-entraînement
Citations vérifiables (audit, conformité)
Contrôle des sources (ACL, gouvernance)
Coûts maîtrisés vs fine-tuning

Section 03

Embeddings — Choisir son modèle

L'embedding transforme un texte en vecteur. Le choix du modèle d'embedding détermine la qualité de recherche.

Modèle	Dimensions	Coût /1M	Multilingue
OpenAI text-embedding-3-large	3072	$0.13	Excellent
Cohere embed-multilingual-v3	1024	$0.10	Excellent
Mistral embed	1024	$0.10	Très bon
BGE-M3 (open-source)	1024	Self-hosted	Excellent

Section 04

Vector databases comparées

Le choix de la vector DB dépend du volume, de la latence cible et de votre stack existante.

Qdrant : open-source, performant, filtres avancés
Pinecone : managé, scaling automatique, premium
Weaviate : modulaire, hybrid search natif
pgvector : extension PostgreSQL, idéal si déjà sur Postgres
Chroma : prototypage et petits volumes

Section 05

Chunking — Le facteur critique

Le découpage des documents est la décision la plus impactante. Trois stratégies à combiner.

Chunking fixe : 500-1000 tokens, overlap 10-20%
Chunking sémantique : par paragraphe ou section logique
Chunking récursif : hiérarchique (document → section → paragraphe)

Testez systématiquement 3 stratégies de chunking sur le même corpus. L'écart de qualité atteint régulièrement 30%.

Section 06

Hybrid search et reranking

La recherche vectorielle pure rate les requêtes contenant des termes exacts (noms propres, identifiants). L'hybrid search (BM25 + vector) + reranking (Cohere Rerank, BGE) améliore le recall de 20 à 40%.

Section 07

RAG enterprise — Architecture complète

Un RAG production ajoute : ACL par utilisateur, citations cliquables, cache de retrieval, évaluateur continu (faithfulness, relevance), versioning de l'index, observabilité bout-en-bout.

Checklist opérationnelle

Avant de passer en production

Définir les sources documentaires et leur fraîcheur
Choisir embedding + vector DB selon volume
Tester 3 stratégies de chunking sur un dataset
Implémenter hybrid search dès le début
Ajouter un reranker (Cohere ou BGE)
Mesurer faithfulness, context relevance, answer relevance
Gérer ACL et filtres au niveau du retrieval, pas du LLM

Questions fréquentes

FAQ

RAG ou fine-tuning ?+

RAG pour les connaissances dynamiques et vérifiables. Fine-tuning pour le comportement et le style. Les deux se combinent souvent.

Quelle vector DB choisir ?+

pgvector si vous êtes déjà sur Postgres. Qdrant pour open-source performant. Pinecone pour zéro gestion et scaling automatique.

Combien coûte un RAG en production ?+

Embeddings : 50-500 €/mois pour la plupart des PME. Vector DB : 0-300 € selon le choix. LLM : variable selon volumes. Comptez 200-2 000 €/mois total.

Le RAG hallucine-t-il toujours ?+

Le RAG réduit drastiquement les hallucinations mais ne les supprime pas. La parade : citations obligatoires, évaluateur de faithfulness, fallback explicite ('je ne sais pas').

Glossaire IA

Termes clés

Embedding: Vecteur numérique représentant la sémantique d'un texte.
BM25: Algorithme classique de recherche lexicale par TF-IDF amélioré.
Reranking: Second classement des résultats par un modèle plus précis.
Faithfulness: Mesure de la cohérence entre la réponse et les sources fournies.

Passer à l'action

Déployer une architecture RAG

De l'audit documentaire au déploiement production par nos architectes RAG.

Concevoir mon RAG