인텔, Habana Gaudi2 및 Greco AI 가속기 발표

Intel Vision 이벤트에서 2세대 Habana AI 가속기(딥 러닝 작업용 Gaudi2 및 추론 시스템용 Greco)가 발표되었습니다. 두 칩 모두 현재 16nm 공정이 아닌 7nm 공정을 사용하여 제조되지만 이것이 유일한 개선 사항과는 거리가 멀습니다.

Gaudi2는 OAM 폼 팩터로 제공되며 TDP는 600W입니다. 이는 가우디가 보유한 350와트의 거의 두 배이지만 2세대 칩은 1세대와 크게 다릅니다. 따라서 온보드 메모리의 양이 3배가 되었습니다. 최대 96GB, 이제 HBM2e이므로 대역폭이 1에서 2.45TB/s로 증가했습니다. SRAM의 양이 48MB로 두 배 증가했습니다. 메모리를 보완하는 것은 데이터를 원하는 형식으로 즉석에서 변환할 수 있는 DMA 엔진입니다.

Gaudi2에는 MME(Matrix Multiplication Engine)와 TPC(Tensor Processor Core)라는 두 가지 주요 유형의 컴퓨팅 장치가 있습니다. MME는 이름에서 알 수 있듯이 행렬 곱셈의 속도를 높이도록 설계되었습니다. TPC는 SIMD 작업을 위한 프로그래밍 가능한 VLIW 블록입니다. TPC는 FP32, BF16, FP16, FP8 및 INT32, INT16 및 INT8과 같이 널리 사용되는 모든 데이터 형식을 지원합니다. HEVC, H.264, VP9 및 JPEG용 하드웨어 디코더도 있습니다.

Gaudi2의 특징은 MME와 TPC의 병렬 운용이 가능하다는 것입니다. 제작자에 따르면 이는 모델 학습 프로세스의 속도를 크게 향상시킵니다. SynapseAI 독점 소프트웨어는 TensorFlow 및 PyTorch와의 통합을 지원하며 기성 모델을 전송 및 최적화하고 새로운 모델을 개발하기 위한 도구, TPC용 SDK, 모니터링 및 오케스트레이션을 위한 유틸리티 등을 제공합니다. 그러나 동일한 NVIDIA와 같은 소프트웨어 생태계의 풍부함은 아직 멀었습니다.

신제품의 인터페이스 부분에는 PCIe 4.0 x16 및 RDMA ROcE v2가 있는 즉시 24개(이전에는 10개) 100GbE 채널이 포함되며, 이는 동일한 노드 내에서 가속기를 서로 연결하는 데 사용됩니다(각각 3개 채널 ) 및 노드 사이. Intel은 8개의 Gaudi2와 기성 AI 플랫폼을 갖춘 HLBA-225(OCP UBB) 보드를 제공하며, 여전히 Supermicro X12 서버를 기반으로 하지만 새로운 보드와 DDN AI400X2 스토리지를 갖추고 있습니다.

마지막으로 가장 흥미로운 것은 성능 비교입니다. 많은 인기 있는 워크로드에서 신제품은 NVIDIA A100(80GB)보다 1.7~2.8배 더 빠릅니다. 언뜻보기에 결과는 인상적입니다. 그러나 A100은 새로운 것과는 거리가 멉니다. 또한 H100 가속기는 올해 3분기에 출시될 예정이며, NVIDIA에 따르면 이 가속기는 A100보다 평균 3~6배 빠르며, 새로운 기능 덕분에 학습 속도의 증가는 최대 아홉 번. 음, 일반적으로 H100은 보다 다양한 솔루션을 제공합니다.

Gaudi2는 이미 Habana 고객이 사용할 수 있으며 Gaudi3 칩의 추가 소프트웨어 최적화 및 개발을 위해 Intel 자체에서 수천 개의 가속기를 사용하고 있습니다. 그레코는 하반기 출시 예정이고 양산은 2023년 1분기로 예정돼 있어 아직 정보가 많지 않다. 예를 들어 가속기는 Goya에 비해 훨씬 덜 탐욕스러워지고 TDP를 200와트에서 75와트로 줄인 것으로 보고됩니다. 이를 통해 PCIe 4.0 x8 인터페이스가 있는 표준 HHHL 확장 카드에 패키징할 수 있습니다.

온보드 메모리의 양은 여전히 16GB이지만 DDR4에서 LPDDR5로 전환하면 대역폭을 40GB/s에서 204GB/s로 5배 늘릴 수 있습니다. 그러나 칩 자체에는 이제 Goya와 같은 40MB가 아닌 128MB의 SRAM이 있습니다. BF16, FP16, (U)INT8 및 (U)INT4 형식을 지원합니다. HEVC, H.264, JPEG 및 P-JPEG 코덱이 탑재되어 있습니다. 동일한 SynapseAI 스택이 Greco와 함께 작동하도록 제공됩니다. 회사는 참신함의 성능을 다른 추론 솔루션과 비교하지 않았습니다.

그러나 Habana의 두 결정은 모두 조금 뒤늦은 것 같습니다. AI 전선의 지연은 아마도 Nervana 솔루션에 대한 실패한 베팅에 대해 부분적으로 "비난"일 것입니다. Habana 솔루션은 훈련을 위해 출시되지 않은 NNP-T 가속기를 대체하게 되었으며 새로운 NNP-I 추론 칩은 기대해서는 안 됩니다. 그럼에도 불구하고 Intel 내부에서도 Habana의 운명은 구름이 없어 보이지 않습니다. 그 솔루션은 Xe 서버 가속기와 경쟁해야 하고 추론 시스템의 경우 Xeon과도 경쟁해야 하기 때문입니다.

2022-05-11 04:51:56

작가: Vitalii Babkin

이전 | 다음