Série : Inside the Black Box — Un guide honnête du développeur sur le fonctionnement réel de l'IA, ce qui est cassé et où tout cela va.
Je construis avec l'IA chaque jour. Je l'utilise pour écrire du code, déboguer des erreurs, revoir l'architecture et parfois simplement des problèmes de canard en caoutchouc à 2 heures du matin. Et voici ce que personne ne dit à voix haute :
Les gens qui l’ont construit ne savent pas vraiment pourquoi il fonctionne.
Pas "ils ne l'ont pas encore compris". Pas « ils ont une idée approximative ». Je veux dire : les ingénieurs d'Anthropic, de Google DeepMind et d'OpenAI font littéralement de l'archéologie dans le domaine des mathématiques pour comprendre ce que font leurs propres modèles. Ce n'est pas une critique. C'est là que se trouve la science.
Cette série porte sur cet écart – entre ce que nous supposons que l’IA fait et ce qui se passe réellement sous le capot. Six articles, une idée pointue chacun, et à la fin, vous penserez à cet outil complètement différemment.
Commençons par la fondation.
Quand j’ai commencé à utiliser sérieusement les LLM, j’avais ce modèle mental : le modèle est comme un moteur de recherche très avancé avec un thésaurus. Il « a levé les yeux » sur Paris et « a su » que c'était la capitale de la France. Posez-lui des questions sur les décorateurs Python et il "récupère" ces connaissances.
Ce modèle est complètement faux.
Il n'y a pas de table de recherche. Aucune base de données de connaissances. Aucune ligne qui dit{ "Paris": "capitale de la France" }. Il n'y a même pas de concept de « stockage » tel que nous le concevons dans les logiciels.
Ce qu’il y a, c’est 70 milliards de nombres.
Un grand modèle de langage est, à la base, une fonction. Vous lui donnez des jetons (des...
[Courte citation de 8% de l'article original]