Comment fonctionne l'IA generative

Introduction

En novembre 2022, le lancement de ChatGPT a marque un tournant dans la perception publique de l'intelligence artificielle. En seulement cinq jours, le chatbot d'OpenAI a atteint un million d'utilisateurs, un record absolu a l'epoque (depuis battu par Threads de Meta en 2023).

Mais comment ces systemes fonctionnent-ils reellement ? Derriere les reponses fluides de ChatGPT ou les images saisissantes de Midjourney se cachent des mecanismes mathematiques complexes, que nous allons demystifier.

Les reseaux de neurones : la brique de base

Le neurone artificiel

Un neurone artificiel est une fonction mathematique qui recoit des entrees, les multiplie par des poids, additionne le tout et applique une fonction d'activation. C'est une version simplifiee du neurone biologique, inspiree des travaux de Warren McCulloch et Walter Pitts en 1943.

Concretement : si un neurone recoit les valeurs [0.5, 0.3, 0.8] avec les poids [0.2, 0.7, 0.1], il calcule : 0.5×0.2 + 0.3×0.7 + 0.8×0.1 = 0.39. Ce resultat passe ensuite par une fonction d'activation (comme ReLU ou sigmoid) qui decide si le neurone « s'active » ou non.

L'apprentissage

L'apprentissage d'un reseau de neurones consiste a ajuster les poids pour minimiser l'ecart entre la sortie prevue et la sortie souhaitee. C'est la retropropagation du gradient, un algorithme decrit par Rumelhart, Hinton et Williams en 1986.

Le processus est iteratif :

Presenter un exemple au reseau
Comparer la sortie du reseau a la reponse attendue
Calculer l'erreur
Ajuster les poids proportionnellement a leur contribution a l'erreur
Recommencer avec l'exemple suivant

Les Transformers : la revolution de 2017

L'article fondateur

En juin 2017, une equipe de Google publie l'article « Attention Is All You Need ». Cette architecture, baptisee Transformer, remplace les reseaux recurrents (RNN) qui dominaient le traitement du langage naturel depuis les annees 1990.

Le mecanisme cle est l'attention : au lieu de traiter les mots un par un de gauche a droite, le Transformer examine tous les mots simultanement et determine lesquels sont importants les uns par rapport aux autres.

Pourquoi c'est revolutionnaire

Prenez la phrase : « La banque du fleuve etait couverte de mousse. » Pour comprendre que « banque » designe ici un rivage et non un etablissement financier, le modele doit considerer le mot « fleuve » et « mousse ». Le mecanisme d'attention le permet naturellement.

Les LLM : des modeles de langage a grande echelle

Le principe de base

Un Large Language Model (LLM) comme GPT-4, Claude ou Gemini est un Transformer entraine sur des quantites massives de texte. Son objectif fondamental est simple : predire le mot suivant dans une sequence.

Si le modele recoit « Le chat est assis sur le », il pourrait predire « tapis » avec une probabilite de 30 %, « canape » avec 15 %, « sol » avec 12 %, etc. Il choisit ensuite un mot (avec une part d'aleatoire controlee par la « temperature ») et recommence.

C'est ce mecanisme de prediction successive qui genere des textes coherents, parfois bluffants.

L'echelle des modeles

La taille des modeles a explose :

GPT-2 (2019) : 1,5 milliard de parametres
GPT-3 (2020) : 175 milliards de parametres
GPT-4 (2023) : nombre non divulgue, estime a plus de 1 000 milliards
Claude 3.5 Sonnet (2024) : nombre non divulgue par Anthropic

Un « parametre » est un poids dans le reseau de neurones. Plus il y en a, plus le modele peut capturer de nuances dans le langage.

L'entrainement

L'entrainement d'un LLM se fait en deux phases :

Le pre-entrainement : le modele lit des milliards de pages web, de livres et d'articles pour apprendre les structures du langage
Le fine-tuning (ou RLHF) : des humains evaluent les reponses du modele pour l'aligner avec les attentes (pertinence, securite, ton)

Le cout est considerable : l'entrainement de GPT-4 aurait coute plus de 100 millions de dollars en puissance de calcul (estimation de Sam Altman, CEO d'OpenAI).

La generation d'images

Les modeles de diffusion

Midjourney, DALL-E 3 et Stable Diffusion utilisent des modeles de diffusion. Le principe est elegant :

On prend une image et on lui ajoute progressivement du bruit (comme de la neige televisee) jusqu'a obtenir du bruit pur
On entraine un reseau de neurones a inverser ce processus : a partir du bruit, reconstruire l'image
Pour generer une nouvelle image, on part de bruit aleatoire et on laisse le modele le « debruiter » etape par etape

Le texte de l'utilisateur (le « prompt ») guide le debruitage pour produire une image correspondant a la description.

Les limites actuelles

Les hallucinations

Les LLM peuvent produire des informations fausses avec une grande assurance. C'est le phenomene des hallucinations : le modele genere des textes plausibles mais factuellement incorrects, car il ne « comprend » pas reellement le contenu — il predit des sequences probables.

Le biais

Les donnees d'entrainement contiennent les biais de la societe. Un modele entraine sur Internet reproduit inevitablement des stereotypes de genre, d'origine ou de culture. Les equipes de recherche travaillent activement a reduire ces biais, mais le probleme reste ouvert.

Le cout environnemental

L'entrainement et l'inference des grands modeles consomment enormement d'energie. Selon l'universite du Massachusetts, l'entrainement d'un seul grand modele peut emettre autant de CO2 que cinq voitures sur toute leur duree de vie.

Conclusion

L'IA generative repose sur des avancees mathematiques accumulees sur plusieurs decennies. Les Transformers de 2017, combines a l'augmentation de la puissance de calcul et des donnees disponibles, ont permis une rupture technologique majeure. Comprendre ces mecanismes permet de mieux apprecier les capacites et les limites de ces outils, et de les utiliser de maniere eclairee.

Développement Web

Applications Mobiles

CRM & Marketing Digital

Solution WordPress

Audit Performance

Système RAG & Automatisation

Mes Services

Cybersécurité

Marketing Digital

Infrastructure Cloud

Mon Accompagnement

Expertise

Solutions

Comment fonctionne l'IA generative : des reseaux de neurones au texte