banner
Maison / Blog / Google détaille TPUv4 et son fou réseau d'IA optiquement reconfigurable
Blog

Google détaille TPUv4 et son fou réseau d'IA optiquement reconfigurable

Aug 17, 2023Aug 17, 2023

Lors du Hot Chips 2023, Google a présenté son fou réseau d’IA optiquement reconfigurable. La société effectue une commutation de circuits optiques pour obtenir de meilleures performances, une consommation réduite et plus de flexibilité pour son cluster de formation en IA. Le plus étonnant, c’est qu’ils produisent ce produit depuis des années.

Cela se fait en direct, veuillez donc excuser les fautes de frappe.

Le principal objectif est de relier les puces Google TPU.

Voici le Google TPUv4 en 7 nm. Nous prévoyons que cette semaine nous commencerons à en entendre davantage sur TPUv5. Google peut généralement rédiger des articles et des présentations sur du matériel ancien d'une génération. Le TPU v4i était la version d'inférence, mais il s'agit davantage d'un discours axé sur le TPUv4.

Google affirme qu'il surapprovisionne la puissance par rapport à la puissance typique afin de pouvoir respecter un SLA de temps de service de 5 ms. Le TDP sur les puces est donc beaucoup plus élevé, mais cela permet aux rafales de répondre à ces rafales SLA.

Voici le schéma de l'architecture TPUv4. Google construit ces puces TPU non seulement pour être un accélérateur unique, mais aussi pour évoluer et fonctionner dans le cadre d'une infrastructure à grande échelle.

Voici les statistiques Google TPUv4 par rapport à TPUv3 dans l'un des tableaux les plus clairs que nous ayons jamais vus à ce sujet.

Google a plus que doublé le pic de FLOPS, mais a réduit la puissance entre TPUv3 et TPUv4.

Google dispose d'un accélérateur SparseCore intégré au TPUv4.

Voici les performances TPUv4 SparseCore de Google.

La carte elle-même possède quatre puces TPUv4 et est refroidie par liquide. Google a déclaré qu'il avait dû retravailler ses centres de données et ses opérations pour passer au refroidissement liquide, mais les économies d'énergie en valent la peine. La vanne de droite contrôle le débit à travers les tubes de refroidissement liquide. Google dit que c'est comme un contrôleur de vitesse de ventilateur, mais pour les liquides.

Google indique également qu'il utilise PCIe Gen3 x16 sur l'hôte puisqu'il s'agit d'une conception 2020.

Google dispose d'une alimentation électrique entrant par le haut du rack, comme dans de nombreux centres de données, mais il dispose également d'un certain nombre d'interconnexions. Dans un rack, Google peut utiliser des DAC électriques, mais en dehors d'un rack, Google doit utiliser des câbles optiques.

Chaque système dispose de 64 racks avec 4 096 puces interconnectées. D'une certaine manière, les clusters d'IA de NVIDIA à 256 nœuds possèdent deux fois moins de GPU.

Également au bout des racks, on voit un rack CDU. Si vous souhaitez en savoir plus sur le refroidissement liquide, vous pouvez consulter notre article Comment fonctionnent les serveurs de refroidissement liquide avec Gigabyte et CoolIT. Nous aurons bientôt plus de contenu de refroidissement liquide. Google affirme que les débits de liquide sont plus élevés que ceux de l'eau dans le tuyau d'un camion de pompiers à crochet et échelle.

Chaque rack est un cube 4x4x4 (64 nœuds) avec commutation de circuit optique (OCS) entre les TPU. Au sein du rack, les connexions sont des DAC. Les faces du cube sont toutes optiques.

Voici un aperçu de l'OCS. Au lieu d'utiliser un interrupteur électrique, l'utilisation de l'OCS permet une connexion directe entre les puces. Google dispose de matrices MEMS 2D internes, d'objectifs, de caméras et bien plus encore. Éviter toute la surcharge de réseau permet un partage des données plus efficace. En passant, cela ressemble à certains égards aux téléviseurs DLP.

Google a déclaré qu'il disposait de plus de 16 000 connexions et d'une distance de fibre suffisante dans le super pod pour pouvoir encercler l'État de Rhode Island.

En raison du grand nombre de communications point à point, cela nécessite beaucoup de brins de fibres.

Au-delà de cela, chaque piscine peut être connectée à des piscines plus grandes.

L'OCS, parce qu'il est reconfigurable, peut permettre une utilisation plus élevée des nœuds.

Google peut alors modifier les topologies en ajustant le routage optique.

Ici, Google montre les avantages de différentes topologies.

Ceci est important puisque Google affirme que les changements dans les besoins du modèle peuvent entraîner des changements dans le système.

Voici la mise à l'échelle de Google sur une échelle logarithmique avec des accélérations linéaires jusqu'à 3 072 puces.

Google a également augmenté la mémoire sur puce à 128 Mo pour maintenir l'accès aux données local.

Voici la comparaison de Google avec le NVIDIA A100 sur la base des performances par watt.

Voici le modèle PaLM entraînant sur 6 144 TPU dans deux pods.

C'est un chiffre énorme !