RAG — Retrieval-Augmented Generation en pratique
Embeddings, vector DB, chunking, hybrid search : l'architecture RAG enterprise.
- Le RAG combine recherche documentaire et génération pour ancrer les réponses dans des sources contrôlées.
- L'hybrid search (sémantique + lexical) surpasse systématiquement la recherche purement vectorielle.
- Le chunking est le facteur de qualité le plus sous-estimé : 80% des échecs RAG viennent de là.
- Une architecture RAG enterprise inclut filtres ACL, citations vérifiables et évaluation continue.
Qu'est-ce que le RAG ?
RAG = retrieve (chercher des passages pertinents) + augment (les injecter dans le prompt) + generate (laisser le LLM répondre). Il résout deux problèmes des LLMs : connaissances figées et hallucinations sur les données métier.
Pourquoi utiliser le RAG ?
Le RAG est la première brique de toute IA d'entreprise crédible. Quatre raisons fondamentales.
- Connaissances à jour sans ré-entraînement
- Citations vérifiables (audit, conformité)
- Contrôle des sources (ACL, gouvernance)
- Coûts maîtrisés vs fine-tuning
Embeddings — Choisir son modèle
L'embedding transforme un texte en vecteur. Le choix du modèle d'embedding détermine la qualité de recherche.
| Modèle | Dimensions | Coût /1M | Multilingue |
|---|---|---|---|
| OpenAI text-embedding-3-large | 3072 | $0.13 | Excellent |
| Cohere embed-multilingual-v3 | 1024 | $0.10 | Excellent |
| Mistral embed | 1024 | $0.10 | Très bon |
| BGE-M3 (open-source) | 1024 | Self-hosted | Excellent |
Vector databases comparées
Le choix de la vector DB dépend du volume, de la latence cible et de votre stack existante.
- Qdrant : open-source, performant, filtres avancés
- Pinecone : managé, scaling automatique, premium
- Weaviate : modulaire, hybrid search natif
- pgvector : extension PostgreSQL, idéal si déjà sur Postgres
- Chroma : prototypage et petits volumes
Chunking — Le facteur critique
Le découpage des documents est la décision la plus impactante. Trois stratégies à combiner.
- Chunking fixe : 500-1000 tokens, overlap 10-20%
- Chunking sémantique : par paragraphe ou section logique
- Chunking récursif : hiérarchique (document → section → paragraphe)
Hybrid search et reranking
La recherche vectorielle pure rate les requêtes contenant des termes exacts (noms propres, identifiants). L'hybrid search (BM25 + vector) + reranking (Cohere Rerank, BGE) améliore le recall de 20 à 40%.
RAG enterprise — Architecture complète
Un RAG production ajoute : ACL par utilisateur, citations cliquables, cache de retrieval, évaluateur continu (faithfulness, relevance), versioning de l'index, observabilité bout-en-bout.
Avant de passer en production
- Définir les sources documentaires et leur fraîcheur
- Choisir embedding + vector DB selon volume
- Tester 3 stratégies de chunking sur un dataset
- Implémenter hybrid search dès le début
- Ajouter un reranker (Cohere ou BGE)
- Mesurer faithfulness, context relevance, answer relevance
- Gérer ACL et filtres au niveau du retrieval, pas du LLM
FAQ
RAG ou fine-tuning ?+
RAG pour les connaissances dynamiques et vérifiables. Fine-tuning pour le comportement et le style. Les deux se combinent souvent.
Quelle vector DB choisir ?+
pgvector si vous êtes déjà sur Postgres. Qdrant pour open-source performant. Pinecone pour zéro gestion et scaling automatique.
Combien coûte un RAG en production ?+
Embeddings : 50-500 €/mois pour la plupart des PME. Vector DB : 0-300 € selon le choix. LLM : variable selon volumes. Comptez 200-2 000 €/mois total.
Le RAG hallucine-t-il toujours ?+
Le RAG réduit drastiquement les hallucinations mais ne les supprime pas. La parade : citations obligatoires, évaluateur de faithfulness, fallback explicite ('je ne sais pas').
Termes clés
- Embedding
- Vecteur numérique représentant la sémantique d'un texte.
- BM25
- Algorithme classique de recherche lexicale par TF-IDF amélioré.
- Reranking
- Second classement des résultats par un modèle plus précis.
- Faithfulness
- Mesure de la cohérence entre la réponse et les sources fournies.
Déployer une architecture RAG
De l'audit documentaire au déploiement production par nos architectes RAG.
Concevoir mon RAGContinuer l'exploration
Déployer un Agent IA — De l'idée à la production
Architecture, mémoire, outils, MCP : le manuel des agents IA autonomes.
Fine-tuning — Spécialiser un LLM en pratique
LoRA, PEFT, datasets, GPU : le guide opérationnel du fine-tuning.
Évaluation IA — Mesurer la qualité en production
Hallucinations, benchmarks, red teaming, monitoring : le manuel de l'eval IA.