Concepts fondamentaux de l'IA générative
Ce guide couvre les notions essentielles pour comprendre et utiliser efficacement les outils d'IA générative, que ce soit via une interface comme ChatGPT, un modèle local avec Ollama, ou une API.
Les modèles de langage (LLM)
Un LLM (Large Language Model) est un modèle entraîné sur d'immenses quantités de texte pour prédire le mot (ou token) suivant. Il ne "comprend" pas au sens humain — il calcule la suite la plus probable.
Familles de modèles courants
| Éditeur | Modèles | Accès |
|---|---|---|
| Anthropic | Claude (Haiku, Sonnet, Opus) | API / claude.ai |
| OpenAI | GPT-4o, o1, o3 | API / ChatGPT |
| Gemini Flash, Pro, Ultra | API / Gemini | |
| Meta | Llama 3.x | Open source / local |
| Mistral | Mistral, Mixtral | API / open source |
| Microsoft | Phi-3, Phi-4 | Open source / local |
Les modèles open source (Llama, Mistral, Phi…) peuvent tourner localement via Ollama. Les modèles propriétaires (Claude, GPT…) nécessitent une API payante.
Tokens — l'unité de base
Les LLM ne lisent pas des mots mais des tokens : fragments de texte découpés selon un algorithme. Un token ≈ ¾ d'un mot en anglais, un peu moins en français.
"Bonjour tout le monde" → ["Bon", "jour", " tout", " le", " monde"] = 5 tokens
Pourquoi c'est important
- Coût API : facturé au token (entrée + sortie)
- Limite de contexte : la fenêtre de contexte est exprimée en tokens
- Vitesse : plus de tokens = génération plus lente
Estimations pratiques
| Contenu | Tokens approximatifs |
|---|---|
| 1 page A4 de texte | ~500 tokens |
| 1 fichier de code (100 lignes) | ~300–600 tokens |
| Ce document entier | ~1 500 tokens |
La fenêtre de contexte (Context Window)
La fenêtre de contexte est la quantité totale de texte qu'un modèle peut traiter en une seule fois : votre historique de conversation + vos fichiers + sa réponse.
[System prompt] + [Historique] + [Message actuel] + [Réponse] ≤ Context window
Tailles typiques (2025)
| Modèle | Context window |
|---|---|
| Claude Sonnet/Opus | 200 000 tokens (~150 000 mots) |
| GPT-4o | 128 000 tokens |
| Llama 3.3 70B | 128 000 tokens |
| Mistral 7B | 32 000 tokens |
⚠️ Important : le modèle n'a pas de mémoire entre les sessions. Chaque nouvelle conversation repart de zéro. Ce qui ressemble à de la mémoire (ChatGPT, Claude) est une injection automatique de résumés dans le contexte.
Les rôles dans un échange
Un échange avec un LLM est structuré en trois types de messages :
| Rôle | Description | Exemple |
|---|---|---|
system |
Instructions permanentes données au modèle | "Tu es un assistant expert en Python. Réponds toujours en français." |
user |
Message de l'utilisateur | "Comment lire un fichier CSV ?" |
assistant |
Réponse générée par le modèle | "Voici comment lire un CSV avec pandas…" |
Le system prompt est la base du comportement du modèle. C'est là que l'on définit son rôle, ses contraintes, son ton.
Température et paramètres de génération
Ces paramètres contrôlent le comportement du modèle lors de la génération.
Température (temperature)
Contrôle la créativité vs précision des réponses.
| Valeur | Comportement | Usage |
|---|---|---|
0.0 |
Déterministe, toujours la même réponse | Code, données, extraction |
0.3–0.7 |
Équilibre (défaut courant) | Rédaction, analyse |
1.0+ |
Créatif, varié, imprévisible | Brainstorming, fiction |
Autres paramètres courants
| Paramètre | Rôle |
|---|---|
max_tokens |
Longueur maximale de la réponse |
top_p |
Filtrage par probabilité cumulée (alternative à temperature) |
stop |
Séquences de texte qui stoppent la génération |
Types de modèles selon la tâche
Les LLM texte ne font pas tout. Il existe des modèles spécialisés :
| Type | Usage | Exemples |
|---|---|---|
| LLM (texte) | Conversation, code, analyse, rédaction | Claude, GPT-4o, Llama |
| Embedding | Transformer du texte en vecteurs numériques (pour la recherche sémantique) | text-embedding-3, nomic-embed |
| Image generation | Créer des images à partir d'un texte | DALL-E 3, Stable Diffusion, Flux |
| Vision | Analyser des images | Claude, GPT-4o, LLaVA |
| Speech-to-text | Transcrire l'audio | Whisper |
| Text-to-speech | Synthèse vocale | ElevenLabs, OpenAI TTS |
Inférence locale vs API cloud
| Local (Ollama, LM Studio) | Cloud (Claude, GPT) | |
|---|---|---|
| Coût | Gratuit (hors matériel) | Payant au token |
| Confidentialité | Données ne quittent pas la machine | Données envoyées au serveur |
| Performance | Limitée par votre GPU | Très haute |
| Qualité | Modèles open source (légèrement inférieurs) | Meilleurs modèles du marché |
| Disponibilité | Hors ligne possible | Nécessite Internet |
Règle pratique
- Données sensibles ou usage intensif → local
- Meilleure qualité ou tâche ponctuelle → cloud
RAG — Retrieval-Augmented Generation
Le RAG permet à un LLM de répondre en s'appuyant sur vos propres documents, sans fine-tuning.
Question utilisateur
↓
Recherche dans la base de documents (via embeddings)
↓
Passages pertinents injectés dans le contexte
↓
LLM génère une réponse basée sur ces passages
C'est ce qui permet à un chatbot de "connaître" votre documentation interne, vos PDF, vos bases de données — sans rien envoyer à l'entraînement du modèle.
Fine-tuning vs Prompt Engineering vs RAG
Trois approches pour adapter un LLM à vos besoins :
| Approche | Principe | Quand l'utiliser |
|---|---|---|
| Prompt Engineering | Écrire de meilleurs prompts | Toujours — c'est la base |
| RAG | Injecter vos données dans le contexte | Quand le LLM doit connaître vos documents |
| Fine-tuning | Ré-entraîner le modèle sur vos données | Quand vous voulez changer le style/comportement profondément |
Pour 90% des cas, le prompt engineering suffit. Le RAG couvre la plupart des 10% restants. Le fine-tuning est rare et coûteux.
Hallucinations
Un LLM peut inventer des faits avec une totale assurance. Ce n'est pas un bug : c'est inhérent au fonctionnement (le modèle prédit ce qui est plausible, pas ce qui est vrai).
Comment les réduire
- Demander au modèle de citer ses sources
- Lui fournir les documents de référence (RAG)
- Baisser la température pour les tâches factuelles
- Lui demander explicitement : "Si tu n'es pas sûr, dis-le"
- Toujours vérifier les informations critiques (dates, chiffres, URLs)
Glossaire rapide
| Terme | Définition |
|---|---|
| LLM | Large Language Model — modèle de langage de grande taille |
| Token | Unité de traitement du texte (~¾ de mot) |
| Context window | Quantité max de texte traitée en une fois |
| System prompt | Instructions permanentes définissant le comportement du modèle |
| Température | Paramètre de créativité (0 = précis, 1+ = créatif) |
| Embedding | Représentation vectorielle d'un texte pour la recherche sémantique |
| RAG | Retrieval-Augmented Generation — enrichir les réponses avec vos documents |
| Fine-tuning | Ré-entraînement du modèle sur des données spécifiques |
| Inférence | Le fait de faire tourner un modèle pour obtenir une réponse |
| Hallucination | Fait inventé présenté avec assurance par le LLM |
| Prompt | Le texte envoyé au modèle pour obtenir une réponse |
| Open source | Modèle dont les poids sont publics et utilisables localement |