Et si les modèles d’IA actuels faisaient fausse route ? Les LLM face à la neuroscience

La langue ne fait pas l’intelligence et l’industrie de l’IA ferait bien de s’en souvenir

Depuis quelques années, la promesse de l’intelligence artificielle générale (AGI) repose sur un pari aussi massif que discret : si l’on entraîne suffisamment un modèle de langage sur suffisamment de texte, l’intelligence émergera naturellement. C’est sur cette hypothèse que Benjamin Riley, fondateur du cabinet Cognitive Resonance, tire un signal d’alarme dans un essai publié sur The Verge : selon les données les plus récentes en neurosciences, la pensée humaine est en grande partie indépendante du langage humain, et rien ne permet de croire que modéliser le langage avec toujours plus de sophistication produira une forme d’intelligence équivalente à la nôtre. 

C’est un argument qui dérange, et qui mérite qu’on s’y arrête surtout pour des DSI qui investissent ou conseillent des investissements considérables dans des plateformes bâties sur cette architecture.

Le cerveau pense avant de parler et souvent sans parler du tout

Les imageries par résonance magnétique fonctionnelle (IRMf) ont montré que des zones distinctes du cerveau s’activent selon le type d’activité cognitive engagée. En clair : le réseau cérébral mobilisé pour traiter le langage n’est pas le même que celui qui gère le raisonnement logique, la planification, ou la résolution de problèmes abstraits. Parler et penser sont deux processus biologiquement séparables.

Pour l’IA, cette distinction est lourde de conséquences. Les grands modèles de langage, des GPT-4 aux Gemini en passant par Claude, sont entraînés sur des corpus textuels gigantesques. Ils prédisent des tokens, construisent des réponses cohérentes, peuvent résumer, paraphraser, reformuler et impressionnent au passage pas mal d’utilisateurs, y compris des professionnels chevronnés. Mais si l’intelligence ne réside pas dans le langage, cette performance reste de l’ordre de la simulation, non de la compréhension.

Une enquête menée en 2022 auprès de chercheurs actifs en traitement du langage naturel illustre bien le débat : à la question de savoir si un modèle génératif entraîné uniquement sur du texte pourrait, en principe, comprendre le langage dans un sens non trivial, les réponses se sont partagées à quasi-égalité, 51 % pour et 49 % contre. Un consensus scientifique qui, pour l’heure, ressemble davantage à un match nul qu’à une certitude industrielle. 

Yann LeCun n’est pas seul à douter

Yann LeCun, lauréat du prix Turing et longtemps directeur scientifique de Meta en matière d’IA, soutient depuis des années que les LLM n’atteindront jamais l’intelligence générale. Il préconise plutôt des modèles dits « world models », conçus pour comprendre le monde en trois dimensions à partir de données physiques variées, et non uniquement textuelles. 

C’est vraisemblablement cette divergence de vision qui a conduit à son récent départ de Meta, dont le PDG Mark Zuckerberg mise des milliards sur une nouvelle division dédiée à une « superintelligence » artificielle fondée sur les LLM. En matière de conviction technologique, l’argent a souvent le dernier mot au moins dans un premier temps. 

Ce qui est notable dans l’essai de Riley, c’est que ses arguments ont rapidement débordé du cadre académique. Une semaine après sa publication sur The Verge, un tribunal fédéral américain l’a cité dans une décision judiciaire pour étayer la proposition selon laquelle les LLM ne raisonnent pas comme les humains. Quand la neuroscience entre dans le prétoire, c’est que quelque chose a changé dans l’air du temps.

« Wing flappers » contre « pluralistes cognitifs » : le débat en deux camps

L’essai a suscité des réactions vives et polarisées, que Riley regroupe lui-même en deux familles. Les premiers, les « wing flappers » (agiteurs d’ailes), contestent l’argument en disant qu’il présuppose à tort que la seule voie vers l’AGI est l’émulation de l’intelligence humaine.

Une métaphore aéronautique circulant sur Reddit résumait la chose ainsi : « Les recherches montrent que les avions ne fonctionnent pas comme les oiseaux, toute l’industrie aérienne est donc une bulle ? » 

L’objection est pertinente sur le fond : l’histoire de l’ingénierie est pleine de solutions qui imitent la nature de façon très imparfaite et fonctionnent quand même. Mais le problème avec les LLM n’est pas de savoir s’ils peuvent être utiles (ils le sont, manifestement), c’est de savoir si l’on peut en extraire quelque chose qui ressemble à une intelligence générale. Et là, la comparaison avec l’aviation tient moins bien, car un avion ne prétend pas « comprendre » le vol.

Les seconds, les « pluralistes cognitifs », acceptent la critique neuroscientifique mais soutiennent que l’intelligence peut prendre de multiples formes, pas nécessairement ancrées dans les mêmes substrats biologiques que les nôtres. C’est une position philosophiquement défendable mais qui, pour l’heure, repose sur des espoirs plus que sur des preuves.

Ce que cela signifie concrètement pour les décideurs IT

Pour un DSI , l’enjeu n’est pas de trancher le débat philosophique sur la nature de l’intelligence. Il est plus pragmatique : les LLM font ce qu’ils font très bien dans un périmètre délimité. Ils traitent du texte, génèrent du contenu, assistent à l’analyse documentaire, automatisent certaines tâches de saisie ou de reformulation. Ils peuvent être déployés avec une réelle valeur ajoutée dans des contextes bien cadrés.

En revanche, parier sur l’émergence spontanée d’une intelligence générale à force d’empiler des tokens et des GPU relève davantage de la foi que de la stratégie. Les recherches récentes renforcent l’idée que les LLM se heurtent à un plafond de verre structurel. Ce plafond n’empêche pas les usages présents d’être pertinents, mais il doit inciter à une vigilance sur les promesses à long terme notamment sur les investissements en infrastructure et en transformation organisationnelle construits sur des hypothèses d’AGI imminente. 

Il y a dans l’industrie une forme de dissonance cognitive entretenue : les mêmes acteurs qui vendent des outils d’IA « copilotes » pour des tâches bien définies annoncent simultanément la superintelligence pour demain matin. Les deux discours ne peuvent pas être vrais en même temps, ou du moins pas au même horizon.

Nous aborderons ceci et d’autres sujets lors du prochain Briefing Calipia en juin qui commence maintenant dans peu de temps, raison de plus de nous rejoindre. C’est aussi l’occasion de discuter de tout ceci avec vos pairs.

Et maintenant ?

La recherche en IA multimodale, les architectures combinant perception visuelle et motricité (robotique, embodied AI), ou encore les approches hybrides neurosymboliques représentent des pistes sérieuses pour dépasser les limitations identifiées. Ce sont aussi des chantiers de recherche dont les résultats industrialisables se comptent encore en années, voire en décennies.

En attendant, la question que tout responsable informatique devrait poser à ses fournisseurs d’IA n’est pas « jusqu’où ira votre modèle ? » mais bien « dans quel périmètre précis ce modèle est-il fiable, et qu’est-ce qu’il ne sait fondamentalement pas faire ? »

La neuroscience vient de poser une partie de la réponse sur la table. L’industrie n’a pas encore décidé si elle voulait regarder.

Pour aller plus loin : L’essai original de Benjamin Riley sur Substack (Cognitive Resonance), republié avec l’accord de The Verge, avec les débats et réfutations documentées : https://buildcognitiveresonance.substack.com/p/large-language-mistake

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.