Fine-tuning — Spécialiser un LLM en pratique

Résumé exécutif

Le fine-tuning améliore la qualité spécialisée mais ne remplace pas le RAG pour les connaissances dynamiques.
LoRA divise les coûts d'entraînement par 10 à 100 avec une qualité quasi identique.
Un fine-tuning sérieux nécessite 500 à 10 000 exemples bien curatés.
Le coût total d'un fine-tuning Llama 3 70B en LoRA tourne autour de 300 à 2 000 €.

Section 01

Qu'est-ce que le fine-tuning ?

Le fine-tuning ajuste les poids d'un modèle pré-entraîné sur un dataset spécifique. Il modifie le comportement (style, format) et les connaissances (vocabulaire métier) du modèle de façon persistante.

Section 02

Quand fine-tuner (et quand ne pas)

Le fine-tuning n'est pas la première solution à envisager. Quatre questions à poser avant.

Le prompt engineering avancé a-t-il été épuisé ?
Le RAG résout-il déjà le besoin ?
Avez-vous 500+ exemples de haute qualité ?
Le ROI justifie-t-il le coût de maintenance ?

Règle empirique : fine-tuning pour le comportement et le style, RAG pour les connaissances.

Section 03

Fine-tuning vs RAG vs Prompting

Trois leviers complémentaires. Les architectures matures les combinent.

Levier	Comportement	Connaissances	Maintenance
Prompting	Limité	Statique	Faible
RAG	Faible	Dynamique	Moyenne
Fine-tuning	Fort	Statique	Élevée
Combiné	Fort	Dynamique	Élevée

Section 04

Préparer son dataset

La qualité du dataset détermine 80% du résultat. Format JSONL avec paires instruction/réponse. Préférez 500 exemples excellents à 10 000 médiocres. Diversité supérieure à volume.

Section 05

LoRA et PEFT — Le standard moderne

LoRA (Low-Rank Adaptation) gèle les poids originaux et entraîne seulement des matrices d'adaptation. Résultat : 0,1 à 1% des paramètres entraînés, 95 à 99% de la qualité du fine-tuning complet.

Section 06

Coûts GPU réels

Estimations basées sur des prix de marché Mai 2026. Les ordres de grandeur changent vite.

Modèle	Méthode	GPU	Coût estimé
Llama 3 8B	LoRA	1× A100	20 - 80 €
Llama 3 70B	LoRA	4× A100	300 - 1 500 €
Llama 3 70B	Full FT	8× H100	8 000 - 30 000 €
GPT-4o-mini	OpenAI managed	Cloud	100 - 500 €

Section 07

Évaluer et déployer

Un modèle fine-tuné doit être comparé sur un jeu de tests gold AVANT déploiement. Métriques : qualité métier (custom), regression sur tâches générales, vitesse, taille.

Checklist opérationnelle

Avant de passer en production

Avoir épuisé prompting + RAG avant de fine-tuner
Disposer de 500+ exemples qualité production
Définir des métriques d'évaluation custom
Réserver 15-20% du dataset pour le test set
Choisir LoRA sauf cas extrêmes
Versionner modèles, datasets et configs
Planifier la maintenance (drift, ré-entraînements)

Questions fréquentes

FAQ

Combien d'exemples faut-il pour fine-tuner ?+

Minimum 500, idéal 2 000 à 5 000 pour la plupart des cas. Au-delà de 20 000, le rendement marginal devient faible.

LoRA vs full fine-tuning : que choisir ?+

LoRA dans 95% des cas. Full fine-tuning seulement si vous changez radicalement le domaine (médical, juridique très spécifique) avec budget GPU conséquent.

Peut-on fine-tuner GPT-4 ?+

Oui via l'API OpenAI Fine-tuning. GPT-4o-mini est accessible, GPT-4o complet sur demande Enterprise. Coût plus élevé qu'un Llama LoRA mais zéro gestion d'infrastructure.

Le fine-tuning expose-t-il mes données ?+

Avec un provider managé (OpenAI), vos données restent privées contractuellement. En self-hosted (Llama + GPU), vous maîtrisez totalement.

Glossaire IA

Termes clés

LoRA: Low-Rank Adaptation — méthode d'adaptation efficace n'entraînant que 0,1-1% des paramètres.
PEFT: Parameter-Efficient Fine-Tuning — famille incluant LoRA, QLoRA, Adapters.
Dataset gold: Jeu de données de référence validé manuellement pour l'évaluation.
Drift: Dégradation progressive de la qualité d'un modèle dans le temps.

Passer à l'action

Construire un modèle IA spécialisé

Dataset, entraînement et déploiement pris en charge par notre réseau d'experts ML.

Lancer un projet ML