Pourquoi vos agents IA oublient tout ce qu’ils ont appris (et une startup presque française veut y remédier)

Publié le 2 juin 2026 par Stephane Sabbague Poster un commentaire

Les agents IA en entreprise souffrent d’amnésie chronique

Déployer un agent IA en entreprise, c’est un peu comme recruter un consultant brillant qui, chaque matin, arrive au bureau sans aucun souvenir de ce qu’il a fait la veille. Il faut tout lui réexpliquer, lui resoumettre les règles, lui rappeler les décisions validées. Multiplié par des dizaines ou des centaines d’agents en production, ce problème dépasse le simple inconfort : il bloque concrètement le passage à l’échelle. C’est ce qui explique aussi que la plupart des agents IA en entreprise n’arrivent jamais à sortir de la phase pilote. Le problème n’est pas le modèle. Le problème, c’est que les agents oublient ce qu’ils ont appris.

Le contexte d’entreprise est un champ de mines

Avant même d’aborder la mémoire, posons le décor. Le contexte d’entreprise est dispersé entre des outils ERP, des journaux de logs, des bases de données, des vector stores et des documents de politique interne. Les outils d’IA générative peuvent techniquement accéder à tout cela, via des recherches par mots-clés, des requêtes SQL ou des pipelines RAG complets, mais la récupération d’information a un plafond structurel.

Les architectures RAG font bien une chose : remonter des documents sémantiquement pertinents. Et c’est aussi là qu’elles s’arrêtent. Récupérer n’est pas raisonner. Trouver un document pertinent n’est pas la même chose que comprendre pourquoi une décision a été prise six mois plus tôt, dans quel contexte, et si elle est encore valide aujourd’hui.

Le marché l’a compris. Le VB Pulse Q1 2026 de VentureBeat indique que l’intention d’adopter un retrieval hybride a triplé entre janvier et mars, passant de 10,3 % à 33,3 %. L’optimisation du retrieval a dépassé l’évaluation comme priorité d’investissement principale pour les entreprises, et les stacks de retrieval maison sont montées de 24,1 % à 35,6 %, signe que les solutions prêtes à l’emploi ne suffisent plus.

Fine-tuning et apprentissage supervisé : une fausse bonne idée ?

Face à ce constat, une réponse intuitive consiste à affiner les modèles sur les données métier. C’est tentant. C’est souvent décevant. Les méthodes classiques de fine-tuning supervisé peuvent générer des oscillations : le modèle oublie la dernière compétence acquise pendant qu’il apprend la suivante. L’apprentissage n’est pas cumulatif, la compression est « dramatique », et les modèles progressent « épisodiquement » plutôt que de façon continue, ce qui les fait régulièrement échouer sur des tâches nouvelles ou inédites.

Autrement dit, chaque nouveau cycle d’apprentissage risque de dégrader ce que l’agent maîtrisait avant. Ce phénomène, connu sous le nom d’oubli catastrophique (catastrophic forgetting), n’est pas une curiosité académique : c’est un frein de production réel.

La mémoire structurée comme infrastructure de confiance

La réponse émergente ne consiste pas à mieux entraîner les modèles, mais à leur fournir une mémoire structurée externe, interrogeable et temporellement cohérente.

C’est précisément l’approche qu’a choisie Rippletide, une startup franco-américaine. Elle a développé un « decision context graph » (graphe de contexte décisionnel), un cadre qui apporte aux agents une mémoire structurée, un raisonnement tenant compte du temps, et une logique de décision explicite. La capacité clé recherchée : des agents non-régressifs, capables de figer des séquences d’actions validées et de les capitaliser dans le temps.

Yann Bilien, cofondateur et directeur scientifique de Rippletide, formule ainsi l’enjeu :

« Le point clé que vous visez, c’est la non-régressivité : comment s’assurer que lorsque l’agent génère quelque

chose de nouveau, vous pouvez vous appuyer sur les découvertes précédentes ? »

Contrairement aux bases de données vectorielles ou aux pipelines RAG qui récupèrent du texte, le decision context graph raisonne de façon déterministe sur des connaissances structurées pour valider si une action proposée est correcte avant qu’elle s’exécute. La distinction est fondamentale pour un DSI : on passe d’un système qui « trouve » à un système qui « valide ». Ce n’est plus de la récupération d’information, c’est de la gouvernance en temps réel.

L’architecture repose sur une technologie de hypergraphe qui capture faits, règles, politiques et relations causales. Les faits peuvent expirer, être remplacés ou invalidés. Chaque agent dispose d’un espace de graphe isolé, ce qui évite les fuites de contexte entre agents. Le retrieval n’est pas basé sur la similarité des embeddings, mais sur ce qui est applicable à l’action en cours, avec les permissions et la validité temporelle intégrées.

L’écosystème s’organise autour de la même conviction

Rippletide n’est pas seul sur ce terrain. Plusieurs acteurs majeurs ont repositionné leur offre autour de la même problématique en 2026.

Microsoft a élargi Fabric IQ, sa couche d’intelligence sémantique, pour rendre ses couches métiers accessible via MCP à n’importe quel agent, quel que soit son éditeur. La logique est claire : si les agents partagent tous la même définition de ce qu’est un « client », une « commande » ou une « région », les décisions divergentes disparaissent. Fabric IQ adresse le problème de la fragmentation inter-agents dans un SI multi-fournisseurs.

De son côté, Redis a lancé Redis Iris, une plateforme de contexte et de mémoire positionnée entre l’agent et les données dont il a besoin pour agir, combinant ingestion de données en temps réel et gestion du contexte, avec l’argument que les agents génèrent des ordres de grandeur de plus de requêtes de données que des utilisateurs humains, ce pour quoi les architectures actuelles n’ont pas été conçues.

Pinecone, de son côté, a annoncé Nexus : un moteur de connaissance (plutôt qu’une amélioration du retrieval) qui introduit un compilateur de contexte convertissant les données brutes d’entreprise en artéfacts de connaissance persistants et spécifiques aux tâches, avant même que les agents les interrogent.

Ce que ça change pour les architectes

La convergence de ces approches dessine une nouvelle couche d’infrastructure que tout architecte de SI devrait intégrer dans sa réflexion : la couche de mémoire agentique. Elle ne remplace pas les LLMs, elle les rend fiables.

Sans mémoire fiable, contexte et continuité, les systèmes autonomes peinent à instaurer la confiance, à prendre des décisions cohérentes ou à opérer de manière sûre à l’échelle. Ce n’est pas une question de performance des modèles. C’est une question d’architecture.

Pour les DSI et les RSSI, la vraie question n’est donc plus « quel LLM choisir ? » mais « quelle est mon infrastructure de contexte ? » Qui gère la validité temporelle des faits que mes agents consomment ? Comment les décisions passées sont-elles tracées et auditables ? Comment éviter qu’un agent apprenne une mauvaise pratique et la propage à l’ensemble de la flotte ?

Les réponses à ces questions ne viendront pas du modèle lui-même. Elles viendront de l’architecture qui l’entoure. Sans surprise, nous en reparlerons lors du prochain Briefing Calipia (il restes juste quelques place pour la session du 11 juin à Paris, ou sinon en ligne le 17 juin)

Calipia : le blog

Opinions et Actualités