banner
Maison / Nouvelles / IA générative et avenir des centres de données : partie VI
Nouvelles

IA générative et avenir des centres de données : partie VI

Jul 18, 2023Jul 18, 2023

Le PDG de DE-CIX explique comment les centres de données doivent s'adapter

Dans le numéro 48 de DCD>Magazine, nous avons publié un article de fond sur l'IA générative et son impact sur l'infrastructure numérique. Si vous avez trouvé votre chemin directement ici, vous voudrez peut-être commencer par le début : IA générative : battage médiatique, opportunités et avenir des centres de données // Partie I - Les modèles

Alors que le silicium est poussé à ses limites pour gérer d’énormes modèles d’IA, les réseaux et l’architecture des centres de données sont confrontés à des défis.

"Avec ces grands systèmes, quoi qu'il arrive, vous ne pouvez pas les installer sur une seule puce, même si vous êtes Cerebras", a déclaré Dylan Patel de SemiAnalysis. « Eh bien, comment puis-je connecter toutes ces puces divisées ensemble ? Si c'est 100, c'est gérable, mais si c'est des milliers ou des dizaines de milliers, alors vous commencez à avoir de réelles difficultés, et Nvidia est en train de déployer exactement cela. C'est sans doute eux ou Broadcom qui disposent du meilleur réseau au monde.

Mais les sociétés de cloud computing s’impliquent également davantage. Ils disposent des ressources nécessaires pour créer leur propre équipement réseau et leurs propres topologies afin de prendre en charge les clusters de calcul en pleine croissance.

Amazon Web Services a déployé des clusters allant jusqu'à 20 000 GPU, avec les propres cartes réseau Nitro spécialement conçues par AWS. "Et nous déploierons plusieurs clusters", a déclaré Chetan Kapoor de la société. « C'est l'une des choses qui, à mon avis, différencient AWS dans ce domaine particulier. Nous exploitons notre technologie Nitro pour disposer de nos propres adaptateurs réseau, que nous appelons Elastic Fabric Adapters.

L'entreprise est en train de déployer sa deuxième génération d'EFA. "Et nous sommes également en train d'augmenter la bande passante par nœud, environ 8 fois entre les A100 et les H100", a-t-il déclaré. « Nous allons monter jusqu'à 3 200 Gbit/s, par nœud. »

Chez Google, un ambitieux effort pluriannuel visant à remanier les réseaux de son énorme parc de centres de données commence à porter ses fruits.

La société a commencé à déployer la technologie de commutation optique personnalisée Mission Apollo à une échelle jamais vue auparavant dans un centre de données.

Les réseaux de centres de données traditionnels utilisent une configuration spine et leaf, dans laquelle les ordinateurs sont connectés à des commutateurs situés en haut du rack (feuilles), qui sont ensuite connectés au spine, constitué de commutateurs de paquets électroniques. Le projet Apollo remplace la colonne vertébrale par des interconnexions entièrement optiques qui redirigent les faisceaux de lumière vers des miroirs.

"Les besoins en bande passante pour la formation, et à une certaine échelle, pour l'inférence, sont tout simplement énormes", a déclaré Amin Vahdat de Google.

Notre plus grand dossier jamais consacré à la prochaine vague informatique

Apollo a permis à l'entreprise de créer des « topologies de réseau plus étroitement adaptées aux modèles de communication de ces algorithmes de formation », a-t-il déclaré. "Nous avons mis en place des réseaux spécialisés et dédiés pour distribuer les paramètres entre les puces, où d'énormes quantités de bande passante circulent de manière synchrone et en temps réel."

Cela présente de multiples avantages, a-t-il déclaré. À cette échelle, des puces ou des racks individuels tombent régulièrement en panne, et « un commutateur de circuit optique est très pratique pour reconfigurer en réponse, car désormais mes modèles de communication correspondent à la topologie logique de mon maillage », a-t-il déclaré.

«Je peux dire à mon commutateur de circuit optique: 'va prendre d'autres puces ailleurs, reconfigurer le commutateur de circuit optique pour brancher ces puces dans le trou manquant, puis continuer.' Il n'est pas nécessaire de redémarrer tout le calcul ou, dans le pire des cas, de repartir de zéro.

Apollo permet également de déployer des capacités de manière flexible. Le TPUv4 de la société s'étend jusqu'à des blocs de 4 096 puces. "Si je programme 256 ici, 64 là, 128 ici, encore 512 là, tout d'un coup, je vais créer des trous, où j'ai un tas de 64 blocs de jetons disponibles."

Dans une architecture de réseau traditionnelle, si un client voulait 512 de ces puces, il ne pourrait pas les utiliser. "Si je n'avais pas de commutateur de circuit optique, je serais coulé et je devrais attendre la fin de certains travaux", a déclaré Vahdat. "Ils occupent déjà des parties de mon maillage, et je n'ai pas de 512 contigus même si j'ai 1 024 jetons disponibles."