Google Ironwood : le TPU qui veut enterrer les supercalculateurs…

Lancé à l’occasion de Google Cloud Next ’25, le TPU Ironwood est un signal clair que Google a changé de paradigme : on ne parle plus simplement de formation de modèles, mais d’exécution à grande échelle. L’âge de l’inférence est arrivé, et il a besoin de beaucoup… beaucoup de puissance.
« Ce n’est plus le moment de bâtir, mais de penser », résume Amin Vahdat, VP de Google Cloud.
Et penser vite : Ironwood atteint jusqu’à 42,5 exaflops par pod (soit 9 216 puces interconnectées), bien au-delà des 1,7 exaflops d’El Capitan, actuel roi des supercalculateurs. Chaque puce intègre 192 Go de mémoire HBM avec une bande passante de 7,2 Tb/s, et offre un rendement énergétique doublé par rapport à Trillium, son prédécesseur de 2024.
Pourquoi l’inférence devient le nouveau Graal
La distinction est cruciale : vous le savez, entraîner un modèle se fait une fois, mais l’inférence — c’est-à-dire son exécution pour produire des résultats — se fait des milliards de fois par jour. Et à l’heure où les modèles deviennent plus profonds, plus logiques, plus interactifs, leur coût de fonctionnement explose. Google mise donc sur une optimisation radicale : réduire le coût de chaque prédiction, sans sacrifier la complexité du raisonnement.
Les puces Ironwood sont le socle des modèles Gemini 2.5, la nouvelle génération d’IA « raisonneuse » de Google. Contrairement aux modèles purement prédictifs, Gemini est conçu pour découper un problème, suivre des chaînes de raisonnement, et ajuster la profondeur de réponse en fonction de la complexité du prompt.
Deux versions ont été présentées :
- Gemini 2.5 Pro : ciblant la R&D, les sciences, la finance.
- Gemini 2.5 Flash : optimisée pour les cas d’usage quotidiens avec latence minimale.
Ajoutez à cela Lyria, le modèle génératif de musique, et la capacité de produire en cascade du texte → image → vidéo → bande-son, et vous avez un véritable studio multimédia génératif à la demande, propulsé par le silicium maison de Google.
Ironwood n’est qu’un pilier de l’arsenal Google Cloud. Il s’inscrit dans une stratégie complète, de l’infrastructure réseau jusqu’au runtime IA :
- Cloud WAN : réseau d’entreprise géré offrant 40 % de performances en plus pour 40 % de coût en moins.
- Pathways : le runtime de Google DeepMind, qui permet de distribuer l’exécution de modèles sur des centaines de TPUs simultanément.
- Protocoles ouverts (A2A) : normalisation des échanges entre agents IA, peu importe leur origine ou leur fournisseur.
Interopérabilité IA : quand les agents discutent entre eux
Google a profité de l’événement pour introduire un concept ambitieux : l’écosystème multi-agents interopérables. Grâce à l’Agent Development Kit (ADK) et au protocole A2A, les agents IA issus de différents environnements pourront collaborer entre eux, indépendamment des plateformes.
Imaginez : un agent RH développé sur ServiceNow discute avec un agent finance sous SAP, pendant qu’un agent Gemini orchestre le tout. Un rêve d’intégration… ou un cauchemar d’audit ?
Autant de sujets que nous aborderons lors du prochain Briefing Calipia.