AI를 통한 산업 혁신이 지속돼 기업은 비용 효율적이고 신속하게 개발 및 배포할 수 있는 인프라가 필요하다. 특히 AI에 대한 수요가 데이터센터의 대규모 변화를 이끌고 있으며, 업계는 하드웨어, 소프트웨어, 개발 도구에서 다양한 선택지를 원하고 있다

인텔이 서울 전경련회관에서  기자간담회를 열고 ‘제온 6 P-코어’ 고성능 서버 프로세서와 PCIe 인터페이스 기반 AI 가속기 ‘가우디 3 HL-338’의 출시를 밝혔다. 이들 제품은 최적의 와트(watt)당 성능과 더 낮은 총 소유 비용(TCO)을 제공해 강력한 AI 시스템을 지원한다.

AI 가속기 'AMX' 탑재로 데이터 처리 속도 7.3배 향상된 '제온 6 P-코어'

인텔의 '제온 6 P-코어' 제품 예시
인텔의 '제온 6 P-코어' 제품 예시

‘인텔 제온 6 P-코어’는 클라우드, 데이터베이스, AI 추론, HPC 등 다양한 워크로드에서 적합한 프로세서로, 이전 세대 대비 HCP 환경에서 2배, AI에서는 최대 2.5배까지 성능이 향상됐고, 전력 소모는 40%에서 최대 70%까지 절감했다.

이 프로세서는 최대 128개의 CPU 코어, 6400MT/s 데이터 속도의 DDR5 메모리, 6개의 24GT/s의 UPI 2.0 링크, 96개의 CXL 2.0 기반 PCIE 5.0 레인, 504MB L3 캐시로 구성된다. 각 CPU 코어에는 FP16을 지원하는 ‘인텔 AMX’ AI 가속기가 내장된다.

또한, 인텔은 ‘MRDIMM’ 기능을 도입해 CPU와 메모리 간 대역폭을 두 배로 늘려 성능을 극대화하며, AI 추론 및 HPC 작업에서 기존 DDR5 사용보다 데이터 속도를 최대 33% 개선했다. CXL 2.0 인터페이스를 활용해 CPU, 메모리, 가속기 등의 자원 연결을 효율적으로 처리하며, 메모리 영역을 균일하게 사용할 수 있는 ‘플랫 메모리 모드’로 3% 이내의 성능 저하로 대규모 메모리 용량이 필요한 애플리케이션에서도 성능 손실을 최소화한다.

아울러, 코어 클러스터링 모드를 활용해 코어를 3개의 클러스터로 나눠 메모리와 캐시 접근을 최적화하는 방식인 SNC3(Sub-NUMA Clustering 3)를 적용했다. 이로 인해 하나로 구성되는 HEX 모드 대비 약 24.5% 적은 지연시간으로 병렬 작업에서 우수한 효율을 제공한다.

한편, ‘인텔 제온 6 P-코어’는 ‘인텔 SGX(Software Guard Extensions)’와 ‘인텔 TDX(Trusted Domain Extensions)’ 하드웨어 기반 보안 기술로 클라우드와 가상화 환경에서 보안성도 높였다. ‘SGX’는 애플리케이션 내에서 민감한 데이터를 보호해 운영체제나 하이퍼바이저에서도 접근할 수 없게 기밀성을 유지하며, ‘TDX’는 가상머신 간의 격리를 보장해 각 VM 데이터를 암호화하고 보호한다.

인텔 코리아 나승주 데이터센터 및 AI 사업부 한국 영업 총괄 상무는 “AI 추론 성능이 이전 세대 대비 최대 2.5배 향상됐으며, AMX 가속기로 백터 데이터 인덱싱 성능이 최대 2.7배 개선됐다.” 라며, “대규모 데이터셋에서 유사 항목을 빠르게 검색할 수 있는 유사 백터 검색(SVS) 기술을 활용해 데이터 검색 속도가 최대 7.3배 빨라졌다.”고 말했다.

병렬 처리 최적화 및 인텔 가우디 3 AI 가속기

인텔 AI 가속기 '가우디 3' 제품 예시
인텔 AI 가속기 '가우디 3' 제품 예시

‘인텔 가우디 3 HL-338’ AI 가속기는 AI 작업에 최적화된 성능을 제공하며, 특히 생성AI 등 대규모 모델 학습과 추론에서 효율성을 극대화한다.

이 가속기는 64개의 텐서 프로세서 코어(TPC)와 8개의 행렬 곱셈 엔진(MME)으로 심층 신경망 연산을 가속화하며, 128GB의 HBM2e 메모리와 22개의 200Gb 이더넷 포트를 갖추고 있어 표준 이더넷 기반 네트워킹 확장과 대규모 AI 모델 학습에서 GPU 간의 통신을 지원한다.

또한, MME와 TPC를 기반으로 파이프라인 활용 병렬 처리를 최적화해 여러 작업을 동시에 효율적으로 처리하고, 시스템 당 4개의 PCIe 카드가 탑재돼 각 카드마다 200GbE 연결로 고속 네트워크 통신을 수행할 수 있다. 각 카드는 512GB/s PCIe 대역폭을 활용해 빠른 데이터 전송을 할 수 있고, 800 GB/s 스케일 아웃과 1800 GB/s 스케일 인으로 고속의 데이터 입출력이 가능한 스케일 옵션도 포함된다.

나 상무는 “라마 3모델 기반 인퍼런스 작업에서 ‘엔비디아 GPU H100’ 대비 성능은 최대 1.19배 높고, 가격 대비 성능은 최대 2배 우위에 있어 AI 작업 환경에서 비용 효율성이 우수하다.”라고 강조했다.

최적의 비용·성능 갖춘 AI 시스템 구축 지원

인텔은 x86 인프라와 개방형 환경을 지원해 기업들이 최적의 비용과 성능 대 전력비를 갖춘 AI 시스템을 구축할 수 있게 한다. 특히, 델은 가우디 3과 제온 6을 활용한 RAG 기반 솔루션을 설계하고, 국내에서는 네이버와 기술 협력을 진행하는 등 주요 OEM 기업과 협력해 특정 요구에 맞춘 AI 배포 시스템을 공동으로 설계하고 있다.

인텔은 OEM 및 협력기업과 공동 엔지니어링으로 생성 AI 솔루션을 프로토타입에서 생산 준비가 완료된 시스템으로 전환하는 과정을 지원하며, 생산 준비가 완료된 RAG 솔루션을 제공해 실시간 모니터링, 오류 처리, 로깅, 보안, 확장성 기능을 제공한다.

또한, 이 솔루션들은 ‘오픈 플랫폼 엔터프라이즈 AI(OPEA)’ 플랫폼을 기반으로 마이크로서비스를 통합해 확장할 수 있는 RAG 시스템을 구축하고, 제온 및 가우디 AI 시스템에 최적화돼 쿠버네티스(Kubernetes), ‘레드햇 오픈시프트 AI’ 및 ‘레드햇 엔터프라이즈 리눅스 AI’에서 애플리케이션을 통합할 수 있다.

엔터프라이즈 AI 애플리케이션 접근성 확대하는 ‘인텔 타이버 포트폴리오’

‘타이버 포트폴리오’는 AI, 클라우드, 에지 환경에서 비용, 보안, 확장성 등 문제를 해결하는 솔루션을 갖췄으며, ‘타이버 개발자 클라우드’는 인텔 제온 6 제품군의 미리보기 시스템에서 AI 애플리케이션을 기술 평가 및 테스트를 할 수 있다. 선별된 기업은 인텔 가우디 3에 조기에 사용할 수 있다.

또한, AI 애플리케이션 개발을 위한 엔드 투 엔드 플랫폼 ‘시커플로우’가 포함돼 AI 가속 기능 및 제온 6 프로세서 지원하는 ‘파이토치 2.4(PyTorch 2.4)’, ‘인텔 원API’ 등 AI 도구가 탑재된 인텔 가우디 소프트웨어, ‘주피터(Jupyter) 노트북’이 포함된다.

나승주 상무는 “구글 클라우드가 제온 6 프로세서를 적용하는 작업을 진행 중”이라며, “가우디 3의 가장 큰 장점은 특정 공급 회사나 기술에 종속되지 않는 개방성을 지향하며, 엔비디아 ‘쿠다 변환 도구’ 지원과 AI 애플리케이션을 대규모로 실행할 수 있는 인프라를 제공한다.”고 말했다.

 

[알림] GTT KOREA와 전자신문인터넷이 오는 9월 27일(금) 서울 양재동 엘타워 그레이스홀(양재역)에서 공동으로 주최하는 “NABS(Next AI & Bigdata Summit) 2024”에서는 “비즈니스에 성공하는 AI & Big Data 혁신 전략”을 주제로 글로벌 AI와 빅데이터 산업을 이끌고 있는 글로벌 리더 기업들이 급변하는 기술과 비즈니스 환경에서 생산성과 효율성 및 비용 절감까지 조직과 비즈니스를 혁신할 수 있는 맞춤형 차세대 AI와 빅데이터 전략을 제시합니다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지