AI 컴퓨팅 글로벌 기업 엔비디아가 모든 플랫폼에서 메타(Meta)의 최신 LLM 라마3(Llama 3)를 가속화하기 위한 최적화를 발표했다. 엔비디아가속 컴퓨팅과 결합된 이 개방형 모델은 다양한 애플리케이션에서 개발자와 연구원 그리고 기업들의 AI 혁신을 지원할 예정이다.
엔비디아 AI로 훈련
메타 엔지니어들은 2만4576개의 엔비디아 H100 텐서 코어(Tensor Core) GPU가 탑재되고, 엔비디아 퀀텀-2 인피니밴드(Quantum-2 InfiniBand) 네트워크와 연결된 컴퓨터 클러스터에서 라마3을 훈련했다. 메타는 엔비디아의 지원을 통해 네트워크, 소프트웨어, 모델 아키텍처를 자사의 대표 LLM에 맞게 조정했다.
메타는 최근 발표에서 생성형 AI의 최첨단 기술을 더욱 발전시키기 위해 인프라를 35만 개의 H100 GPU로 확장할 계획이라고 밝혔다.
모든 플랫폼에서 라마3 활용하기
엔비디아 GPU에서 가속화된 라마3는 클라우드, 데이터센터, 에지 그리고 PC에서 사용할 수 있다. 개발자는 브라우저에서 엔비디아 홈페이지에 접속해 라마3를 사용해 볼 수 있다.
라마3는 어디서나 배포될 수 있는 표준 애플리케이션 프로그래밍 인터페이스를 갖춘 엔비디아 NIM 마이크로서비스로 패키징돼 있다.
기업은 보안이 지원되는 엔비디아 AI 엔터프라이즈(AI Enterprise) 플랫폼의 일부인 LLM용 오픈 소스 프레임워크 엔비디아 네모(NeMo)를 사용해 데이터로 라마3를 미세 조정할 수 있다. 사용자 지정 모델은 엔비디아 텐서RT-LLM으로 추론에 최적화하고 엔비디아 트리톤 추론 서버(Triton Inference Server)로 배포할 수 있다.
디바이스와 PC에서 라마3 사용하기
라마3는 로보틱스와 에지 컴퓨팅 디바이스를 위한 엔비디아 젯슨 오린(Jetson Orin)에서 실행되며, 젯슨 AI 랩(AI Lab)에서와 같은 대화형 에이전트를 생성한다.
또한 워크스테이션과 PC용 엔비디아 RTX와 지포스 RTX(GeForce RTX) GPU는 라마3에서 추론 속도를 높인다. 이러한 시스템을 통해 개발자는 전 세계 1억 개 이상의 엔비디아 가속 시스템을 활용할 수 있다.
라마3로 최적 성능 확보하기
챗봇용 LLM를 배포하려면 짧은 지연 시간, 우수한 읽기 속도, 비용 절감을 위한 최적의 GPU 사용 간의 균형을 고려해야 한다. 이러한 서비스는 단어 수준에 해당하는 토큰을 초당 약 10개의 토큰을 처리하는 사용자의 읽기 속도보다 약 2배 빠른 속도로 전달해야 한다.
이러한 측정을 적용한 결과, 700억 개의 매개변수가 있는 라마3을 사용한 초기 테스트에서 단일 엔비디아 H200 텐서 코어 GPU는 초당 약 3000개의 토큰을 생성했다. 이는 약 300명의 동시 사용자에게 서비스를 제공할 수 있는 양이다.
즉, H200 GPU 8개가 장착된 단일 엔비디아 HGX 서버는 초당 2만4000개의 토큰을 전송할 수 있으며, 동시에 2400명 이상의 사용자를 지원해 비용을 더욱 최적화할 수 있다.
에지 디바이스의 경우, 80억 개의 매개변수가 있는 라마3는 젯슨 AGX 오린에서 초당 최대 40개의 토큰을, 젯슨 오린 나노(Jetson Orin Nano)에서 초당 15개의 토큰을 생성했다.
커뮤니티 모델 고도화
오픈 소스 모델은 AI 투명성을 촉진하고 사용자가 AI 안전과 복원력에 대한 작업을 광범위하게 공유할 수 있도록 한다. 엔비디아는 오픈 소스에 적극적으로 기여해오고 있으며, 사용자가 가장 어려운 문제를 해결하는 데 유용한 커뮤니티 소프트웨어를 최적화하는 데 전념하고 있다.
오픈소스 커뮤니티에서 NIM, 텐서RT-LLM, 트리톤이 LoRA(Low-Rank Adaptation)와 같은 최신 기술을 사용해 최신 LLM을 가속화하는 방법을 비롯해 엔비디아의 AI 추론 플랫폼에 대해 자세히 알아볼 수 있다.

관련기사
- 지식 자산화 솔루션과 sLLM의 결합 ‘M-LLM’
- 2주 만에 AI 전 과정 마스터
- 기업의 생성AI 고민 해결하는 ‘DAP 젠AI 플랫폼’
- 엔비디아, 로컬PC에서 다양한 생성AI 파운데이션 모델 지원
- LLM 이해·생성 능력 평가 ‘호랑이 한국어 LLM 리더보드’
- AI 인프라 확장, 그러나 GPU 최적화 기업 ‘19%에 불과’
- LLM 성능평가, 역사·독해력 등 지식의 ‘깊이’도 중요
- 말하면 알아서 척척 ‘절차 생성 AI’, LLM이 성능 보장
- [기고] 생성AI 앱 수준을 높이는 자율 에이전트 구축법
- 오픈 소스 LLM 기반 생성AI 클라우드 “배포와 운영 간편”
- 2024년 AI 및 자연어 처리에 대한 전문가 예측
- [2024년 전망] 엔비디아 AI 전문가들이 내다 본 2024년 AI 산업
- 엔비디아-AWS, '생성AI' 기반 헬스케어 워크플로우 가속 맞손
- 엔비디아-인트린직, 차세대 '로봇 파지 기술'로 AI 기반 산업 자동화 가속
- 일반 LLM vs. 특화 분야 LLM
- 엔비디아가 생각하는 차세대 데이터센터 효율 측정 기준은?
- [Success Story] 다양한 산업 HPC 작업 지원하는 엔비디아 '생성AI·GPU’
- 엔비디아-구글, LLM 등 AI 애플리케이션 개발 협력
- ‘소프트 로보틱스’ 시장 연평균 30% 고성장…‘헬스케어·산업 자동화’ 가속
- 엔비디아-데이터브릭스, 가속 컴퓨팅과 AI 활용 강화 협력
- 뉴렐릭 '옵저버빌리티 플랫폼', 엔비디아 NIM에 통합
- LLM 정확도·처리 속도 높이는 ‘엔비디아 네모 리트리버 NIM’ 마이크로서비스
- 엔비디아 NIM, 허깅페이스 추론 극대화
