기업들은 AI 워크로드를 지원하고 데이터 처리 가속화를 위해 점점 더 강력한 컴퓨팅을 찾고 있다. 이를 통해 얻은 효율성은 AI 훈련과 미세 조정에 대한 투자 대비 더 나은 수익과 AI 추론을 위한 향상된 사용자 경험으로 이어질 수 있다.

AI 컴퓨팅 엔비디아가 9일 미국 라스베이거스에서 열린 ‘오라클 클라우드월드’ 행사에서 오라클(Oracle)과 함께 AI와 데이터 처리 가속화를 돕는 다양한 솔루션을 발표했다. 

OCI 슈퍼클러스터 예시
OCI 슈퍼클러스터 예시

‘오라클 클라우드 인프라스트럭처(이하 OCI)’는 엔비디아 블랙웰(Blackwell) 플랫폼으로 가속화해 엑사스케일보다 천배 우수한 제타스케일 ‘OCI 슈퍼클러스터’를 발표했다. 이 제품은 10만 개 이상의 엔비디아 GPU를 사용해 AI 모델을 훈련하고 배포할 수 있도록 돕는다.

‘OCI 슈퍼클러스터’는 기업이 엔비디아 GPU 중에서 필요한만큼 선택할 수 있고, 온프레미스, 퍼블릭 클라우드, 소버린 클라우드 등에서 배포할 수 있다. 내년 상반기에 출시될 예정인 블랙웰 기반 시스템은 최대 13만 1072개의 블랙웰 GPU를 RoCEv2 또는, 엔비디아 퀀텀-2 인피니밴드 네트워킹용 엔비디아 커넥트X-7 NIC으로 확장해 클라우드에 2.4제타플롭의 AI 컴퓨팅을 구현할 수 있다.

오라클은 생성AI 애플리케이션을 지원하는 엔비디아 GB200 NVL72 수냉식 베어메탈 인스턴스도 선보였다. 이 인스턴스는 ‘퀀텀-2 인피니밴드’로 대규모 훈련을 수행할 수 있으며, 단일 대형 GPU처럼 작동할 수 있는 엔비디아 NV링크로 연결된 72개의 GPU 도메인 내에서 수조 개의 매개변수 모델을 실시간으로 추론할 수 있다.

OCI는 NV링크와 NV링크 스위치로 엔비디아 HGX H200을 지원할 예정이다. 이 제품은 단일 베어메탈 인스턴스에 8개의 엔비디아 H200 텐서 코어 GPU를 연결하고, RoCEv2 클러스터 네트워킹으로 엔비디아 커넥트X-7 NIC로 6만 5536개의 H200 GPU까지 확장될 수 있다. 이 인스턴스는 대규모 실시간 추론과 훈련 워크로드를 가속화하려는 기업에게 적합하다.

그 밖에, 중급 AI 워크로드, 엔비디아 옴니버스와 시각화에 적합한 엔비디아 L40S GPU 가속 인스턴스의 정식 출시도 발표했다. 이러한 인스턴스들은 단일 노드부터 멀티 랙 솔루션까지 지원하는 오라클의 에지 오퍼링과 결합해 연결되지 않은 원거리에서도 엔비디아 GPU로 가속화된 에지에서 확장할 수 있는 AI를 활용할 수 있다. 예를 들어, 오라클의 ‘로빙 엣지 디바이스v2’를 사용한 소규모 배포는 최대 3개의 엔비디아 L4 텐서 코어 GPU를 사용한다.

엔비디아 GPU로 강화된 생성AI 기반 오라클 데이터베이스 워크로드

오라클 자율운영 데이터베이스(Oracle Autonomous Database)는 오라클 머신 러닝 노트북에 엔비디아 GPU를 탑재해 기업들의 데이터 처리 작업을 가속화하고 있다.

양사는 오라클 클라우드월드에서 엔비디아 가속 컴퓨팅 플랫폼을 사용해 생성AI 검색의 주요 구성 요소인 검색 증강 생성 파이프라인을 가속화할 수 있게 3가지 기능을 시연했다.

우선, 오라클 자율운영 데이터베이스 서버리스 내에서 대량 벡터 임베딩을 가속화해 엔터프라이즈 데이터를 엔비디아 GPU를 사용해 AI를 효율적으로 활용하는 방법을 소개했다. 이 벡터들은 오라클 데이터베이스 23ai의 ‘AI 벡터 검색’을 사용해 검색할 수 있다.

엔비디아 GPU 및 ‘래피즈 cuVS’와 오라클이 개발한 오프로드 프레임워크를 사용해 벡터 그래프 인덱스 생성 시간을 단축하는 기술실증 프로토타입도 공개했다. 이 기술은 벡터 검색 인덱스 구축 시간을 크게 줄여준다.

또한, 추론 마이크로서비스 도구인 ‘엔비디아 NIM’이 다양한 모델 크기와 동시에 여러 작업을 처리하는 능력에서 텍스트 생성과 번역 사용 사례에 대한 생성AI 성능을 어떻게 향상하는 기능을 발표했다.

엔비디아 기반 OCI 솔루션으로 AI 작업 자동화 가속

기업은 OCI 클라우드 솔루션으로 NIM 마이크로서비스와 엔비디아 cuOpt 등 엔비디아 소프트웨어를 배포해 작업 자동화로 코드 생성, 경로 최적화등 복잡한 작업을 수행하는 생성AI를 빠르게 도입할 수 있다.

또한, 엔비디아 기반 OCI 슈퍼클러스터를 사용해 AI 혁신을 추진하고 있다. 예를 들어, 파운데이션 모델 스타트업 레카(Reka)는 엔터프라이즈 에이전트 개발에 관한 멀티모달 AI 모델을 개발하는 데 클러스터를 사용하고 있다.

레카의 다니 요가타마(Dani Yogatama) 대표는 “엔비디아와 OCI 기술로 구축된 멀티모달 AI 모델은 차세대 엔터프라이즈 에이전트의 성능을 강화하며, 엔비디아 GPU 인프라를 활용해 대규모 모델과 컨텍스트를 처리하고, 클러스터 수준 확장을 위한 고밀도 및 저밀도 훈련을 구현할 수 있다.”고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지