De Copilot à la superintelligence : Microsoft change de braquet

Mustafa Suleyman, CEO de Microsoft AI depuis l’absorption discrète d’Inflection AI en 2024, n’est pas du genre à s’exprimer à demi-mot. Dans un entretien accordé à The Verge début avril 2026, il détaille avec une franchise inhabituelle la nouvelle trajectoire de la division Microsoft AI après une réorganisation menée en mars. Le ton est ambitieux, les annonces concrètes et les implications, considérables pour les DSI qui pilotent des environnements Microsoft.
L’accord OpenAI, ce verrou qui sautait en silence
L’élément le plus révélateur de l’interview tient en une phrase : la renégociation du contrat avec OpenAI a « déverrouillé la capacité de Microsoft à poursuivre la superintelligence ». Ce n’est pas une formule rhétorique. Selon les informations recueillies par VentureBeat, Microsoft était contractuellement empêché de développer des modèles de grande envergure jusqu’en octobre 2025. En d’autres termes, le partenaire stratégique était aussi, d’une certaine manière, le verrou.
Cette contrainte levée, la mécanique s’est enclenchée rapidement. Suleyman reconnaît cependant que Microsoft « n’est pas encore en mesure de construire des modèles à la plus grande échelle », mais que la montée en puissance computationnelle est en cours pour permettre de le faire dès 2026, avec des modèles frontières pleinement compétitifs attendus pour 2027.
Trois modèles MAI pour marquer le territoire
L’entretien accompagne le lancement de trois modèles développés en interne par l’équipe Microsoft AI, directement disponibles sur Microsoft Foundry et Azure : (nous vous en parlions ce matin sur le blog :https://blog.calipia.com/2026/04/15/microsoft-et-lemancipation-par-lia-le-divorce-technique-avec-openai-bientot-consomme/)
MAI-Transcribe-1 est présenté comme le modèle de transcription le plus précis au monde sur 25 langues, d’après le benchmark FLEURS (Word Error Rate). Il fonctionne particulièrement bien dans des environnements sonores dégradés, avec des locuteurs multiples ou des accents marqués. Son coût de 0,36 $ par heure audio, à des vitesses de traitement 2,5x supérieures à son prédécesseur, le positionne clairement comme une alternative industrielle sérieuse à Whisper d’OpenAI ou à Azure Speech Service.
MAI-Voice-1 cible la synthèse vocale naturelle et expressive, pendant que MAI-Image-2, la troisième brique, est décrit comme le modèle d’image le plus performant de la flotte Microsoft. Ces trois modèles ont été construits « en quelques mois seulement » selon Suleyman, ce qui dit beaucoup sur la densité de l’équipe désormais mobilisée autour de la mission superintelligence.
La superintelligence, une question de définition
C’est ici que la controverse commence. Suleyman définit la superintelligence non pas comme le dépassement spectaculaire de l’intelligence humaine fantasmé dans les films de science-fiction, mais comme la capacité des systèmes IA à « délivrer de la valeur produit » à grande échelle. Cette reformulation pragmatique n’a pas manqué de faire réagir Gary Marcus, chercheur bien connu pour son scepticisme mesuré : « Déplacer les poteaux de but. Avec cette définition, la superintelligence, c’est simplement un bon produit. »
On peut comprendre l’agacement. Mais on peut aussi lire cette définition comme un signal stratégique destiné aux clients enterprise : Microsoft ne vend pas de rêves transcendants, elle vend des systèmes qui fonctionnent, se déploient et génèrent de la productivité mesurable. Pour un DSI qui gère un parc M365 et considère des investissements Copilot, c’est finalement le message le plus opérationnel possible.
Une autonomie technologique qui interroge
La trajectoire de Microsoft est désormais claire : réduire sa dépendance à OpenAI tout en maintenant le partenariat, développer ses propres modèles frontières, et construire une couche d’infrastructure IA souveraine via la famille MAI. Le lancement simultané de MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 marque symboliquement le début de cette « auto-suffisance IA », pour reprendre l’expression employée par Techstrong.ai.
Pour les architectes, cela a des implications pratiques immédiates : les API Azure vont progressivement s’enrichir de capacités natives Microsoft qui ne transitent plus uniquement par les modèles OpenAI. Les questions de gouvernance des données, de résidence, de coût et de performance vont se poser différemment selon que l’on choisit les modèles MAI ou GPT-4 dans la même plateforme Foundry. Une complexité supplémentaire à intégrer dans les plans d’adoption IA, mais aussi une opportunité de diversifier les risques de dépendance fournisseur.
Quant à Suleyman lui-même, son rôle a évolué en mars 2026 : il se concentre désormais sur la recherche en modèles et la mission superintelligence, tandis que Ryan Roslansky, Perry Clarke et Charles Lamanna prennent en charge les applications M365 et la plateforme Copilot. Une réorganisation qui ressemble moins à un effacement qu’à une montée en puissance vers la couche la plus stratégique de toute la chaîne IA.