Lors de l'événement Intel Vision, la deuxième génération d'accélérateurs Habana AI a été annoncée : Gaudi2 pour les tâches d'apprentissage en profondeur et Greco pour les systèmes d'inférence. Les deux puces sont désormais fabriquées en 7 nm plutôt qu'en 16 nm, mais c'est loin d'être la seule amélioration.
Gaudi2 est disponible dans un facteur de forme OAM et a un TDP de 600W. C'est presque le double des 350 watts de Gaudi, mais la deuxième génération de puces est très différente de la première. Ainsi, la quantité de mémoire embarquée a triplé ; jusqu'à 96 Go, et maintenant c'est HBM2e, donc en conséquence, la bande passante est passée de 1 à 2,45 To/s. La quantité de SRAM a doublé pour atteindre 48 Mo. En complément de la mémoire, des moteurs DMA peuvent convertir les données sous la forme souhaitée à la volée.
Il existe deux principaux types d'unités de calcul dans Gaudi2 : Matrix Multiplication Engine (MME) et Tensor Processor Core (TPC). MME, comme son nom l'indique, est conçu pour accélérer la multiplication matricielle. Les TPC sont des blocs VLIW programmables pour travailler avec les opérations SIMD. Les TPC prennent en charge tous les formats de données courants : FP32, BF16, FP16, FP8, ainsi que INT32, INT16 et INT8. Il existe également des décodeurs matériels pour HEVC, H.264, VP9 et JPEG.
Une caractéristique de Gaudi2 est la possibilité de fonctionnement parallèle de MME et TPC. Selon les créateurs, cela accélère considérablement le processus de formation des modèles. Le logiciel propriétaire SynapseAI prend en charge l'intégration avec TensorFlow et PyTorch, et propose également des outils pour transférer et optimiser des modèles prêts à l'emploi et en développer de nouveaux, un SDK pour TPC, des utilitaires de surveillance et d'orchestration, etc. Cependant, la richesse de l'écosystème logiciel comme celui du même NVIDIA est encore loin.
La partie interface des nouveaux produits comprend PCIe 4.0 x16 et immédiatement 24 (auparavant il n'y en avait que 10) canaux 100GbE avec RDMA ROcE v2, qui sont utilisés pour connecter les accélérateurs les uns aux autres au sein du même nœud (3 canaux chacun à chaque ) et entre les nœuds. Intel propose une carte HLBA-225 (OCP UBB) avec huit Gaudi2 et une plate-forme d'IA prête à l'emploi, toujours basée sur des serveurs Supermicro X12, mais avec de nouvelles cartes, et un stockage DDN AI400X2.
Enfin, le plus intéressant est la comparaison des performances. Dans un certain nombre de charges de travail populaires, le nouveau produit est 1,7 à 2,8 fois plus rapide que le NVIDIA A100 (80 Go). A première vue, le résultat est impressionnant. Cependant, les A100 sont loin d'être nouveaux. De plus, les accélérateurs H100 devraient être lancés au troisième trimestre de cette année, ce qui, selon NVIDIA, sera en moyenne trois à six fois plus rapide que l'A100, et grâce à de nouvelles fonctionnalités, l'augmentation de la vitesse d'apprentissage peut être jusqu'à neuf fois. Eh bien, en général, les H100 sont des solutions plus polyvalentes.
Gaudi2 est déjà disponible pour les clients de Habana, et plusieurs milliers d'accélérateurs sont utilisés par Intel lui-même pour l'optimisation logicielle et le développement des puces Gaudi3. Greco sera disponible dans la seconde moitié de l'année, et leur production en série est prévue pour le premier trimestre 2023, il n'y a donc pas encore beaucoup d'informations à leur sujet. Par exemple, il est rapporté que les accélérateurs sont devenus beaucoup moins voraces par rapport à Goya et ont réduit le TDP de 200 à 75 watts. Cela leur a permis d'être emballés dans une carte d'extension HHHL standard avec une interface PCIe 4.0 x8.
La quantité de mémoire embarquée est toujours de 16 Go, mais le passage de DDR4 à LPDDR5 a permis de multiplier par cinq la bande passante - de 40 à 204 Go/s. Mais la puce elle-même a maintenant 128 Mo de SRAM, et non 40 comme Goya. Il prend en charge les formats BF16, FP16, (U)INT8 et (U)INT4. Il y a des codecs HEVC, H.264, JPEG et P-JPEG à bord. La même pile SynapseAI est proposée pour fonctionner avec Greco. La société n'a pas fourni de comparaison des performances de la nouveauté avec d'autres solutions d'inférence.
Cependant, les deux décisions de Habana semblent un peu tardives. Le retard sur le front de l'IA est probablement en partie «à blâmer» pour le pari infructueux sur les solutions Nervana - les solutions Habana sont venues remplacer les accélérateurs NNP-T inédits pour la formation, et il ne faut pas s'attendre à de nouvelles puces d'inférence NNP-I. Néanmoins, le sort de Habana, même au sein d'Intel, ne s'annonce pas sans nuage, puisque ses solutions devront concurrencer les accélérateurs de serveurs Xe, et dans le cas des systèmes d'inférence, même Xeon.
2022-05-11 04:51:56
Auteur: Vitalii Babkin