HPE가 ‘HPE 기반 엔비디아 AI 컴퓨팅(NVIDIA AI Computing by HPE)’ 솔루션 포트폴리오를 강화한다고 23일 밝혔다.

이번 업데이트로 HPE는 ▲엔비디아 AI 엔터프라이즈와 통합 강화 ▲HPE 프라이빗 클라우드 AI(HPE Private Cloud AI) 지원 확대 ▲엔비디아 AI 데이터 플랫폼용 HPE 알레트라 스토리지 MP X10000(HPE Alletra Storage MP X10000) 소프트웨어 개발 키트(SDK) 출시▲엔비디아 RTX PRO 6000 블랙웰 서버 에디션 GPU 및 엔비디아 엔터프라이즈 AI 팩토리 검증된 설계 기반의 컴퓨팅 및 소프트웨어 제품을 출시했다.

엔비디아 AI 엔터프라이즈 위한 피쳐 브랜치 지원 

엔비디아와 공동 개발한 턴키 방식의 클라우드 기반 AI 팩토리 HPE 프라이빗 클라우드 AI는 전용 개발자 솔루션을 포함하고 있다.

AI 프레임워크, 사전 훈련 모델을 위한 엔비디아 NIM 마이크로서비스 및 SDK를 포함하는 엔비디아 AI 엔터프라이즈의 피쳐  브랜치(Feature Branch) 모델 업데이트를 지원할 예정이다. 이를 통해 개발자는 AI 워크로드를 위한 소프트웨어 기능과 최적화 사항을 테스트하고 검증할 수 있다.  가드레일이 내장된 프로덕션 브랜치 모델에 대한 기존 지원과 더불어, 개발자 시스템을 구축하고 이를 프로덕션-레디 에이전틱 및 생성AI 애플리케이션으로 확장하는 한편, 기업 전반에 걸쳐 안전한 다계층 접근 방식을 도입할 수 있도록 지원한다.

에이전틱 및 생성AI 워크로드를 위한 풀스택 솔루션인 HPE 프라이빗 클라우드 AI는 엔비디아 엔터프라이즈 AI 팩토리 검증 설계를 지원한다.

엔비디아 AI 데이터 플랫폼 지원 스토리지 솔루션 공개

HPE 알레트라 스토리지 MP X10000은 엔비디아 AI 데이터 플랫폼 레퍼런스 설계와 연동되는 SDK를 선보일 예정이다. HPE의 최신 데이터 플랫폼과 엔비디아의 맞춤형 레퍼런스 설계를 연결함으로써, 고객은 에이전틱 AI 구현을 위한 가속화된 성능과 인텔리전트 파이프라인 오케스트레이션을 활용할 수 있다.

이는 컨텍스트 기반의 AI-레디 데이터를 엔비디아 AI 생태계에 직접 통합할 수 있도록 지원한다. 이를 통해 기업은 엔비디아 가속 인프라 전반에서 수집, 추론, 훈련 및 지속적인 학습을 위한 비정형 데이터 파이프라인을 간소화할 수 있다. 

이번 SDK 통합으로, 유연한 인라인 데이터 프로세싱, 벡터 인덱싱, 메타데이터 강화, 데이터 관리 기능을 통해 데이터 가치를 극대화할 수 있고 GPU 메모리, 시스템 메모리 및 X10000 간의 RDMA(Remote Direct Memory Access) 전송을 통해 데이터 경로를 가속화하고 AI 데이터 플랫폼 효율을 향상할 수 있다. 또한, X10000의 모듈식 컴포저블 빌딩 블록으로 구축 규모를 조정해 고객이 워크로드 요구사항에 맞게 용량 및 성능을 독립적으로 확장할 수 있다.

엔비디아 RTX PRO 6000 블랙웰 지원

ㅇ
HPE 프로라이언트 컴퓨트 DL380a Gen12

NVIDIA H100 NVL, H200 NVL 및 L40S GPU를 탑재한 HPE 프로라이언트 컴퓨트 DL380a Gen12(HPE ProLiant Compute DL380a Gen12) 서버는 최근 MLPerf 인퍼런스: 데이터센터(MLPerf Inference: Datacenter) v5.0 벤치마크의 라마2-70B와 미스트랄-8x7B를 포함한 4개 테스트에서 1위를 기록했다.

이 AI 서버는 최대 10개의 엔비디아 RTX PRO 6000 블랙웰 서버 에디션 GPU를 탑재해 출시될 예정이며, 향상된 기능과 함께 에이전틱 멀티모달 AI 추론, 피지컬 AI, 모델 미세조정 뿐만 아니라 디자인, 그래픽 및 비디오 애플리케이션을 포함한 엔터프라이즈 AI 워크로드를 위한 성능을 제공할 예정이다.

HPE 프로라이언트 컴퓨트 DL380a Gen12는 공랭식 및 직접 수냉 방식(DLC)으로 제공되며, 과중한 워크로드에서도 최적의 성능을 유지한다. 또한, HPE 프로라이언트 컴퓨트 Gen12 포트폴리오에 탑재된 HPE iLO(Integrated Lights Out) 7은 실리콘 RoT(Root of Trust) 기반으로 한 내장된 보호 기능을 갖추고 있으며, 양자 내성 암호를 지원하고 암호화 보안 표준인 FIPS 140-3 레벨 3 인증 요구사항을 충족한다.

HPE 컴퓨트 옵스 매니지먼트(HPE Compute Ops Management)는 사전 알림 기능 및 예측적 AI 기반 인사이트를 통해 에너지 효율성 향상 및 전반적인 시스템 상태 정보를 제공해 서버 환경을 위한 안전하고 자동화된 수명 주기 관리를 지원한다.

새로운 가속 컴퓨팅 최적화

HPE 옵스램프 소프트웨어(HPE OpsRamp Software)는 AI 워크로드 모니터링을 위한 엔비디아 RTX PRO 6000 블랙웰 서버 에디션 GPU까지 지원할 수 있는 AI 인프라 최적화 솔루션으로 확장됐다. HPE 그린레이크 플랫폼(HPE GreenLake Platform) SaaS방식으로 구성되는 이 솔루션은 IT 팀이 하이브리드 환경 전반에 분산된 AI 인프라를 모니터링하고, 최적화를 통해 AI인프라 운영을 효율적으로 관리, 지원한다.

HPE 옵스램프는 풀스택 AI 워크로드에서 인프라 옵저버빌리티, 워크플로 자동화, AI 기반 분석 및 이벤트 관리를 가능하게 하고, 엔비디아 가속 컴퓨팅 및 엔비디아의 인프라를 모니터링 하고, 솔루션 통합을 통해 AI 인프라의 성능과 복원력을 모니터링할 수 있는 세분화된 측정 지표들을 제공한다. 

주요 기능으로는 GPU 온도, 사용률, 메모리 사용량, 전력 소비량, 클럭 속도 및 팬 속도를 모니터링해 AI 인프라의 전반적인 운영 상태와 성능 지표를 제공하고, 클러스터 전반의 GPU 및 CPU 사용률을 추적해 작업 스케줄링 및 리소스를 최적화한다.

손상 방지를 위한 클럭 속도를 조정과 GPU 전원을 차단하는 등의 특정 이벤트에 대한 응답을 자동화하고, 과거 성능 및 사용률 데이터를 분석해 AI옵스 기반으로 미래의 리소스 수요를 예측하고, 추가 리소스 할당을 위한 운영을 최적화한다. 대규모 AI 배포 시 전력 소비량 및 리소스 사용률 모니터링하고 비용을 최적화하기 위한 다양한 지표도 제공한다. 

HPE 안토니오 네리(Antonio Neri) CEO는 “HPE의 솔루션을 기반으로 공동 개발한 AI 기술을 통해, 기업들이 AI 도입의 어느 단계에 있든 기업 전반에서 그 잠재력을 효과적으로 실현할 수 있도록 지원하고 있다.”라고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지