Codex Security : le nouveau pansement d’OpenAI pour une plaie qu’il a lui-même ouverte ?
OpenAI vient de sortir Codex Security, une évolution de son projet de recherche Aardvark. Sous ce nom très marketing se cache un agent autonome, propulsé par GPT-5.4, dont la promesse ferait rêver n’importe quel DSI sous pression : identifier et corriger les vulnérabilités de vos bases de code de manière totalement autonome.
Sur le papier, l’argumentaire est d’une logique implacable. OpenAI reconnaît enfin un secret de polichinelle : les outils de génération de code par IA (comme GitHub Copilot ou leur propre API Codex) inondent les dépôts de milliers de lignes de code à une vitesse telle que les revues de sécurité humaines sont devenues physiquement impossibles. Pour éteindre l’incendie provoqué par l’accélération de la production de code, OpenAI nous propose donc… plus d’IA.
Techniquement, Codex Security tente de se démarquer des outils de SAST (Static Application Security Testing) traditionnels, souvent critiqués pour leur propension maladive à générer des faux positifs. L’agent utilise un raisonnement agentique couplé à une validation automatisée. En clair, il ne se contente pas de pointer un problème ; il tente de le comprendre dans son contexte, propose un patch, et vérifie si ce dernier tient la route. OpenAI avance des chiffres flatteurs : une réduction de 84 % du « bruit » après plusieurs passages et une chute de 90 % des erreurs de sévérité.
Cependant, pour un architecte système, la prudence reste de mise. Confier la clé de la correction automatique à un agent autonome soulève des questions de gouvernance majeures. Si l’outil promet d’intégrer le « contexte produit », on sait à quel point les subtilités d’une architecture métier échappent encore aux modèles probabilistes. Corriger une injection SQL est une chose, comprendre qu’une modification de logique de validation peut casser une compatibilité ascendante avec une API tierce en est une autre.
En somme, Codex Security ressemble à une tentative audacieuse de stabiliser un écosystème de développement devenu frénétique. C’est un outil puissant, certes, mais qui ne dispense en rien d’une supervision humaine experte, sous peine de voir des bugs subtils s’introduire au milieu de corrections automatisées trop zélées.
Nous reviendrons sur tout ceci avec une session dédiée au « Vide Coding » lors du prochain Briefing Calipia en juin.