인텔은 오늘 ML커먼스가 인텔 가우디2(Intel Gaudi2) 가속기와 인텔 어드밴스드 매트릭스 익스텐션(Intel AMX)이 탑재된4세대 인텔 제온 스케일러블 프로세서(4th Gen Intel Xeon Scalable processors)의 AI 모델 학습에 대한 MLPerf 트레이닝(MLPerf Training) v3.1 벤치마크 측정 결과를 발표했다고 밝혔다.

인텔 가우디2는 v3.1 학습 GPT-3 벤치마크에서 FP8 데이터 유형을 적용해 두 배 높은 성능을 보여주면서 4세대 제온 프로세서와 함께 다양한 하드웨어 구성으로 우수한 AI 학습 성능을 입증해 점점 더 다양해지는 고객의 AI 컴퓨팅 요구 사항을 해결할 수 있다는 것을 보여줬다.

가우디2는 FP8 데이터 유형 구현으로 v3.1 학습 GPT-3 벤치마크에서 두 배의 성능 향상을 보였다. 6월 MLPerf 벤치마크 대비 학습 시간이 절반 이상으로 단축됐으며, 384개의 인텔 가우디2 가속기를 사용해 153.38분 만에 학습을 완료했다. 가우디2 가속기는 E5M2과 E4M3 형식 모두에서 FP8을 지원하며 필요 시 지연 스케일링 옵션도 제공한다.

인텔 가우디2는 BF16을 사용해 20.2분 만에 64개의 가속기로 스테이블 디퓨전(Stable Diffusion) 멀티모달 모델에 대한 학습을 시연했다. 향후 MLPerf 트레이닝 벤치마크에서는 FP8 데이터 유형에 대한 스테이블 디퓨전 성능이 제출될 예정이다.

8개의 인텔 가우디2 가속기에서 BERT와 ResNet-50에 대한 벤치마크 결과는 각각 BF16을 사용하여 13.27분과 15.92분을 나타냈다.

4세대 제온 프로세서의 성능을 통해, 많은 엔터프라이즈 기업이 범용 CPU를 사용해 기존 엔터프라이즈 IT 인프라에서 중소 규모의 딥 러닝 모델을 경제적이고 지속적으로 학습할 수 있으며, 특히 학습이 간헐적인 워크로드인 사용 사례에 적합하다.

인텔은 소프트웨어 업데이트와 최적화를 통해 향후 MLPerf 벤치마크에서 AI 성능 결과가 더욱 향상될 것으로 예상하고 있다. 인텔의 AI 제품은 고객에게 성능, 효율성, 유용성을 요구하는 동적인 요구 사항을 충족하는 AI 솔루션에 대한 더 많은 선택지를 제공한다.

산드라 리베라(Sandra Rivera) 인텔 데이터센터 및 AI 그룹 총괄  수석부사장은 “인텔은 AI 포트폴리오를 지속적으로 혁신하고 있으며, 연이은 MLPerf 성능 결과를 통해 ML커먼스 AI 벤치마크의 기준을 높이고 있다. 인텔 가우디와 4세대 제온 프로세서는 고객에게 뚜렷한 가격 대비 성능 이점을 제공한다. 인텔의 다양한 AI 하드웨어와 소프트웨어 구성은 고객에게 AI 워크로드에 맞는 포괄적인 솔루션과 선택지를 제공한다”고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지