인텔은 국제 슈퍼컴퓨팅 컨퍼런스(ISC)에서 향상된 고성능컴퓨팅(HPC)과 인공지능(AI) 워크로드 성능은 물론 oneAPI 프로그래밍 모델로 통일된 HPC와 AI 제품 포트폴리오, 그리고 과학과 사회를 위한 생성AI 모델 개발에 오로라 슈퍼컴퓨터를 활용하기 위한 국제적인 협력을 22일(현지시간) 발표했다.

이날 제프 맥베이(Jeff McVeigh) 인텔 슈퍼컴퓨팅 그룹 총괄 및 부사장은 특별 발표를 통해 인텔이 모든 하드웨어에 걸쳐 보유하고 있는 경쟁력과 강력한 모멘텀을 강조했다:

ISV인 앤시스(Ansys)에 따르면, AI 가속 HPC 애플리케이션에서 GPU 맥스 시리즈가 H100 제품 대비 50% 빠른 속도를 기록하는 등, 인텔 데이터센터 GPU 맥스 시리즈는 다양한 워크로드에서 엔비디아 H100 PCIe 제품 대비 30% 향상된 성능을 제공한다고 밝혔다.

HBM를 탑재한 x86 프로세서인 제온 맥스 시리즈 CPU는 HPCG(High Performance Conjugate Gradients) 벤치마크에서 AMD 제노아 프로세서 대비 더 적은 전력으로 65% 향상된 성능을 제공한다. 또한 HPC에서 가장 널리 사용되는 4세대 인텔 제온 스케일러블 프로세서는 AMD 밀란(AMD Milan) 제품 대비 평균 50% 빠른 속도를 제공하며, 에너지 기업 BP의 최신 4세대 제온 HPC 클러스터는 전 세대 프로세서 대비 8배 높은 성능과 향상된 에너지 효율성을 제공한다.

인텔 맥스 시리즈 GPU
인텔 맥스 시리즈 GPU

가우디2(Gaudi2) 딥 러닝 가속기는 딥 러닝 학습 및 추론에서 엔비디아 A100 대비 최대 2.4배 빠른 성능을 제공한다.

HPC와 AI 위한 데이터센터 솔루션

인텔은 또한 HPC 커뮤니티에 다양한 선택지와 솔루션을 제공해 AI의 대중화를 지원하는 인텔 데이터센터 오퍼링에 대해 소개했다.

높은 메모리 대역폭 요구를 충족하기 위한 차세대 CPU와 그래나이트 래피즈를 위한 새로운 형태의 DIMM인 멀티플렉서 결합 랭크(MCR)를 소개했다. MCR은 DDR5 기준 초당 8800메가전송(megatransfer) 속도와 2소켓 시스템에서 초당 1.5테라바이트(TB/s) 이상의 메모리 대역폭 용량을 기록했다. 이런 메모리 대역폭 향상으로 빠르게 증가하는 최신 CPU 코어 수를 충족하고 효율성과 유연성을 제공할 수 있다.

인텔의 차세대 맥스 시리즈 GPU(팔콘 쇼어)는 고객이 빠르게 변화하는 미래의 새로운 워크로드를 위해 시스템 수준의 CPU와 외장 GPU를 유연하게 조합할 수 있도록 지원할 예정이다. 팔콘 쇼어는 모듈식 타일 기반 아키텍처를 기반으로 하며 다음과 같은 기능을 제공한다:

인텔의 차세대 맥스 시리즈 GPU는 고객이 빠르게 변화하는 미래의 새로운 워크로드를 위해 시스템 수준의 CPU와 외장 GPU를 유연하게 조합할 수 있도록 지원할 예정이다. 팔콘 쇼어는 모듈식 타일 기반 아키텍처를 기반으로 P64에서 BF16, FP8에 이르는 HPC와 AI 데이터 유형을 지원하고, 최대 9.8TB/s의 총 대역폭과 대폭 향상된 고속 I/O로 최대 288GB의 HBM3 메모리를 사용할 수 있다.

과학용 생성AI 위한 협력

아르곤 국립연구소는 인텔, HPE와 협력해 과학 연구 공동체를 위한 일련의 생성AI 모델 제작 계획을 공개했다.

과학용 생성형 AI 모델은 일반 문서, 코드, 과학 문서를 비롯해, 생물학, 화학, 재료 과학, 물리학, 의학, 기타 출처의 구조화된 과학 데이터를 학습한다.

1조 개에 달하는 매개변수가 포함된 결과 모델은 분자나 물질 설계부터 수백만 개 출처에 걸친 지식을 학습하는 등 다양한 과학적 응용 분야에 사용돼, 시스템 생물학, 고분자 화학, 에너지 재료, 기후 과학, 우주론 등 다양한 분야에서 새롭고 흥미로운 실험을 제안할 예정이다. 더불어, 이 모델은 암이나 기타 질병과 관련된 생물학적 과정을 더욱 빨리 규명하도록 지원하며, 약물 설계를 위한 목표 제시에도 사용될 것이다.

또한, 인텔과 아르곤 국립연구소는 오로라 슈퍼컴퓨터의 설치 진행 상황, 시스템 사양 및 초기 성능 결과를 공개했다:

HPE 크레이(Cray) EX 슈퍼컴퓨터를 사용해 구축한 오로라 슈퍼컴퓨터 시스템에는 6만 3744개의 GPU와 2만 1248개의 CPU, 1024개의 DAOS 스토리지 노드가 탑재돼 있다. 더불어, HPE 슬링샷 고성능 이더넷 네트워크를 활용한다.

초기 결과는 실제 과학이나 엔지니어링 워크로드에서 뛰어난 성능을 제시하며, AMD MI250 GPU 대비 최대 2배 높은 성능, QMCPACK 양자 기계 애플리케이션에서 H100 대비 20% 높은 성능, 최대 수백 노드에 이르는 선형에 가까운 확장성을 제공한다.

올해 출시 예정인 오로라 슈퍼컴퓨터는 2엑사플롭스 이상의 최고 배정밀도 컴퓨팅 성능을 제공할 것으로 예상된다.

오로라 슈퍼컴퓨터
오로라 슈퍼컴퓨터

oneAPI를 통한 개방형 가속 컴퓨팅

oneAPI 프로그래밍 모델이 2020년에 공개된 이후, 개발자들은 여러 하드웨어 공급업체의 다양한 CPU, GPU, FPGA, AI 실리콘에서 oneAPI를 시연함으로써, 단일 공급업체 가속 프로그래밍 모델의 문제를 해결하고 있다. 최신 인텔 oneAPI 툴은 OpenMP GPU 오프로드를 통해 HPC 애플리케이션의 속도를 향상시키고, OpenMP와 포트란에 대한 지원을 확장하며, 텐서플로우나 파이토치 등 최적화된 프레임워크와 AI 툴을 통해 AI와 딥러닝을 가속화해 성능을 대폭 향상시킬 수 있게 한다.

oneAPI는 oneAPI의 SYCL을 구현, 코드플레이에서 개발한 엔비디아와 AMD 프로세서용 oneAPI 플러그인과 CUDA 코드를 SYCL과 C++로 자동으로 전환하는 인텔 DPC++ 호환 도구(오픈 소스 SYCLomatic 기반)를 통해 다중 아키텍처 프로그래밍을 개발자들에게 더욱 쉬운 환경을 조성한다. 이러한 작업에서 코드의 90-95%가 자동으로 전환된다.

SYCL 코드는 엔비디아와 AMD 기반 시스템 언어에서 실행되는 동일한 코드와 비슷한 성능을 보인다. 데이터에 따르면 맥스 시리즈 GPU에서 실행되는 DPEcho 천체 물리학 애플리케이션의 SYCL 코드는 엔비디아 H100에서 실행되는 동일한 CUDA 코드보다 48% 더 뛰어난 성능을 발휘한다.

더불어, 생태계 내에서 SYCL 도입이 확산되고 있다. 아토스(Atos)의 사업부서인 에비덴(Eviden)은 자사 성능 프로그래밍 센터 오브 엑셀런스(CEPP)를 기반으로 하는 HPC/AI 코드 현대화 서비스인 CEPP one+를 인텔과 함께 발표했다. CEPP one+는 공개 표준을 통해 하드웨어 선택의 자유를 제공하는 동시에 커뮤니티가 이기종 컴퓨팅 환경에 대비할 수 있도록 SYCL과 OpenMP 채택에 중점을 둘 예정이다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지