Concepts fondamentaux de l'IA générative

Ce guide couvre les notions essentielles pour comprendre et utiliser efficacement les outils d'IA générative, que ce soit via une interface comme ChatGPT, un modèle local avec Ollama, ou une API.


Les modèles de langage (LLM)

Un LLM (Large Language Model) est un modèle entraîné sur d'immenses quantités de texte pour prédire le mot (ou token) suivant. Il ne "comprend" pas au sens humain — il calcule la suite la plus probable.

Familles de modèles courants

Éditeur Modèles Accès
Anthropic Claude (Haiku, Sonnet, Opus) API / claude.ai
OpenAI GPT-4o, o1, o3 API / ChatGPT
Google Gemini Flash, Pro, Ultra API / Gemini
Meta Llama 3.x Open source / local
Mistral Mistral, Mixtral API / open source
Microsoft Phi-3, Phi-4 Open source / local

Les modèles open source (Llama, Mistral, Phi…) peuvent tourner localement via Ollama. Les modèles propriétaires (Claude, GPT…) nécessitent une API payante.


Tokens — l'unité de base

Les LLM ne lisent pas des mots mais des tokens : fragments de texte découpés selon un algorithme. Un token ≈ ¾ d'un mot en anglais, un peu moins en français.

"Bonjour tout le monde"  →  ["Bon", "jour", " tout", " le", " monde"]  = 5 tokens

Pourquoi c'est important

  • Coût API : facturé au token (entrée + sortie)
  • Limite de contexte : la fenêtre de contexte est exprimée en tokens
  • Vitesse : plus de tokens = génération plus lente

Estimations pratiques

Contenu Tokens approximatifs
1 page A4 de texte ~500 tokens
1 fichier de code (100 lignes) ~300–600 tokens
Ce document entier ~1 500 tokens

La fenêtre de contexte (Context Window)

La fenêtre de contexte est la quantité totale de texte qu'un modèle peut traiter en une seule fois : votre historique de conversation + vos fichiers + sa réponse.

[System prompt] + [Historique] + [Message actuel] + [Réponse] ≤ Context window

Tailles typiques (2025)

Modèle Context window
Claude Sonnet/Opus 200 000 tokens (~150 000 mots)
GPT-4o 128 000 tokens
Llama 3.3 70B 128 000 tokens
Mistral 7B 32 000 tokens

⚠️ Important : le modèle n'a pas de mémoire entre les sessions. Chaque nouvelle conversation repart de zéro. Ce qui ressemble à de la mémoire (ChatGPT, Claude) est une injection automatique de résumés dans le contexte.


Les rôles dans un échange

Un échange avec un LLM est structuré en trois types de messages :

Rôle Description Exemple
system Instructions permanentes données au modèle "Tu es un assistant expert en Python. Réponds toujours en français."
user Message de l'utilisateur "Comment lire un fichier CSV ?"
assistant Réponse générée par le modèle "Voici comment lire un CSV avec pandas…"

Le system prompt est la base du comportement du modèle. C'est là que l'on définit son rôle, ses contraintes, son ton.


Température et paramètres de génération

Ces paramètres contrôlent le comportement du modèle lors de la génération.

Température (temperature)

Contrôle la créativité vs précision des réponses.

Valeur Comportement Usage
0.0 Déterministe, toujours la même réponse Code, données, extraction
0.3–0.7 Équilibre (défaut courant) Rédaction, analyse
1.0+ Créatif, varié, imprévisible Brainstorming, fiction

Autres paramètres courants

Paramètre Rôle
max_tokens Longueur maximale de la réponse
top_p Filtrage par probabilité cumulée (alternative à temperature)
stop Séquences de texte qui stoppent la génération

Types de modèles selon la tâche

Les LLM texte ne font pas tout. Il existe des modèles spécialisés :

Type Usage Exemples
LLM (texte) Conversation, code, analyse, rédaction Claude, GPT-4o, Llama
Embedding Transformer du texte en vecteurs numériques (pour la recherche sémantique) text-embedding-3, nomic-embed
Image generation Créer des images à partir d'un texte DALL-E 3, Stable Diffusion, Flux
Vision Analyser des images Claude, GPT-4o, LLaVA
Speech-to-text Transcrire l'audio Whisper
Text-to-speech Synthèse vocale ElevenLabs, OpenAI TTS

Inférence locale vs API cloud

Local (Ollama, LM Studio) Cloud (Claude, GPT)
Coût Gratuit (hors matériel) Payant au token
Confidentialité Données ne quittent pas la machine Données envoyées au serveur
Performance Limitée par votre GPU Très haute
Qualité Modèles open source (légèrement inférieurs) Meilleurs modèles du marché
Disponibilité Hors ligne possible Nécessite Internet

Règle pratique

  • Données sensibles ou usage intensif → local
  • Meilleure qualité ou tâche ponctuelle → cloud

RAG — Retrieval-Augmented Generation

Le RAG permet à un LLM de répondre en s'appuyant sur vos propres documents, sans fine-tuning.

Question utilisateur
        ↓
Recherche dans la base de documents (via embeddings)
        ↓
Passages pertinents injectés dans le contexte
        ↓
LLM génère une réponse basée sur ces passages

C'est ce qui permet à un chatbot de "connaître" votre documentation interne, vos PDF, vos bases de données — sans rien envoyer à l'entraînement du modèle.


Fine-tuning vs Prompt Engineering vs RAG

Trois approches pour adapter un LLM à vos besoins :

Approche Principe Quand l'utiliser
Prompt Engineering Écrire de meilleurs prompts Toujours — c'est la base
RAG Injecter vos données dans le contexte Quand le LLM doit connaître vos documents
Fine-tuning Ré-entraîner le modèle sur vos données Quand vous voulez changer le style/comportement profondément

Pour 90% des cas, le prompt engineering suffit. Le RAG couvre la plupart des 10% restants. Le fine-tuning est rare et coûteux.


Hallucinations

Un LLM peut inventer des faits avec une totale assurance. Ce n'est pas un bug : c'est inhérent au fonctionnement (le modèle prédit ce qui est plausible, pas ce qui est vrai).

Comment les réduire

  • Demander au modèle de citer ses sources
  • Lui fournir les documents de référence (RAG)
  • Baisser la température pour les tâches factuelles
  • Lui demander explicitement : "Si tu n'es pas sûr, dis-le"
  • Toujours vérifier les informations critiques (dates, chiffres, URLs)

Glossaire rapide

Terme Définition
LLM Large Language Model — modèle de langage de grande taille
Token Unité de traitement du texte (~¾ de mot)
Context window Quantité max de texte traitée en une fois
System prompt Instructions permanentes définissant le comportement du modèle
Température Paramètre de créativité (0 = précis, 1+ = créatif)
Embedding Représentation vectorielle d'un texte pour la recherche sémantique
RAG Retrieval-Augmented Generation — enrichir les réponses avec vos documents
Fine-tuning Ré-entraînement du modèle sur des données spécifiques
Inférence Le fait de faire tourner un modèle pour obtenir une réponse
Hallucination Fait inventé présenté avec assurance par le LLM
Prompt Le texte envoyé au modèle pour obtenir une réponse
Open source Modèle dont les poids sont publics et utilisables localement