- Ironwood TPU de Google à 9216 puces avec une mémoire partagée record de 1,77pb
- L’architecture Dual Die fournit 4614 Tflops FP8 et 192 Go HBM3E par puce
- Les fonctionnalités améliorées de la fiabilité et les fonctionnalités de conception assistée par l’IA permettent des charges de travail efficaces à l’inférence à grande échelle
Google a clôturé les séances d’apprentissage automatique lors du récent événement Hot Chips 2025 avec un aperçu détaillé de sa nouvelle unité de traitement du tenseur, Ironwood.
La puce, qui a été révélée pour la première fois à Google Cloud 25 prochain En avril 2025, est le premier TPU de l’entreprise conçu principalement pour les charges de travail à grande échelle, plutôt que pour la formation, et arrive comme sa septième génération de matériel TPU.
Chaque puce Ironwood intègre deux matrices de calcul, offrant 4 614 Tflops de performances FP8 – et huit piles de HBM3E fournissent 192 Go de capacité de mémoire par puce, associée à une bande passante de 7,3 To / s.
1,77pb de HBM
Google a intégré à 1,2 Tops de bande passante d’E / S pour permettre à un système de s’étendre jusqu’à 9 216 puces par pod sans logique de colle. Cette configuration atteint un énorme 42,5 exaflops de performances.
La capacité de mémoire évolue également de manière impressionnante. À travers un pod, Ironwood offre 1,77pb de HBM directement adressable. Ce niveau définit un nouvel enregistrement pour les supercalculateurs de mémoire partagés et est activé par les commutateurs de circuit optique reliant les racks.
Le matériel peut reconfigurer autour des nœuds défaillants, en restaurant les charges de travail à partir de points de contrôle.
La puce intègre plusieurs fonctionnalités destinées à la stabilité et à la résilience. Il s’agit notamment d’une racine de confiance sur puce, de fonctions d’auto-test intégrées et de mesures pour atténuer la corruption des données silencieuses.
Les fonctions de réparation logique sont incluses pour améliorer le rendement de la fabrication. L’accent mis sur le RAS, ou la fiabilité, la disponibilité et la facilité de service est visible tout au long de l’architecture.
Le refroidissement est géré par une solution de plaque froide soutenue par la troisième génération de l’infrastructure de refroidissement liquide de Google.
Google revendique une double amélioration des performances par Watt par rapport à Trillium. La tension dynamique et la mise à l’échelle de fréquence améliore encore l’efficacité lors de variétés de charges de travail.
Ironwood intègre également des techniques d’IA dans sa propre conception. Il a été utilisé pour aider à optimiser les circuits ALU et le plan d’étage.
Une SPARSECORE de quatrième génération a été ajoutée pour accélérer les intérêts et les opérations collectives, soutenant les charges de travail telles que les moteurs de recommandation.
Le déploiement est déjà en cours chez Hyperscale dans Google Cloud Data Centers, bien que le TPU reste une plate-forme interne non disponible directement pour les clients.
Commentant la session à Hot Chips 2025, Servir«Ryan Smith a déclaré:« C’était une présentation impressionnante. Google a vu la nécessité de créer une AI haut de gamme il y a plusieurs générations. Maintenant, la société innove à tous les niveaux, des puces, aux interconnexions, et à l’infrastructure physique.
