AI 추론 기술은 대규모 언어 모델과 멀티모달 애플리케이션의 실시간 대응 성능을 결정짓는 핵심 요소다. 특히 생성AI와 비전 언어 모델이 고도화되면서 추론 효율성과 확장성 확보는 기업과 연구기관에 있어 필수 과제가 되고 있다. 이에 따라 소프트웨어 최적화와 하드웨어 인프라의 통합 접근이 요구되고 있다.

글로벌 AI 클라우드 플랫폼 기업 노비타AI(Novita AI)가 대규모 언어 및 비전-언어 모델 추론 엔진 ‘SG랭(SGLang)’과 전략적 파트너십을 체결했다고 발표했다. 노비타 AI는 이번 협력을 통해 SGLang의 연구와 성능 벤치마킹, 최적화 프로젝트에 고성능 GPU 클라우드 인프라를 제공할 계획이다.

구조화된 생성 언어와 성능 혁신

SG랭은 구조적 생성 언어와 고도로 최적화된 런타임을 공동 설계한 추론 엔진으로, 레딕스(RadixAttention) 캐시 재사용 및 제로 오버헤드 배치 스케줄링을 구현해 대규모 언어 및 멀티모달 모델에서 탁월한 성능을 발휘한다.

이 엔진은 언어 수준 제어와 백엔드 최적화를 정렬해 복잡한 생성 워크플로, 멀티모달 애플리케이션, 병렬 추론 파이프라인을 안정적이고 확장성 있게 구축할 수 있도록 지원한다.

SG랭은 엔비디아(NVIDIA), AMD, xAI, 오라클 클라우드, 구글 클라우드, 링크드인, 커서(Cursor)를 비롯해 스탠포드대학, 캘리포니아대 버클리, UCLA 등 주요 연구기관과 협력하고 있다. 

엔드투엔드 강화학습 프레임워크 및 LLM 플랫폼 개발

노비타AI는 이번 협력으로 SG랭의 연구, 벤치마킹, 최적화 작업에 고성능 GPU 클라우드 인프라를 제공한다. 이미 SG랭의 엔드 투 엔드 멀티턴 강화학습(RL) 프레임워크와 다중 대형언어모델(LLM) 서비스 시스템 ‘프리즘(Prism)’ 개발을 지원했다.

또한 양사는 SG랭의 대규모 전문가 병렬처리 프로젝트에도 공동으로 참여하고 있다. 이는 딥시크(DeepSeek) 공식 블로그에 공개된 처리량 벤치마크에 근접한 성능을 목표로 하는 오픈소스 구현 프로젝트로, 노비타AI가 인프라 및 공동 개발을 통해 지원 중이다.

노비타AI 공동창업자 겸 최고운영책임자(COO) 황쥔위(Junyu Huang)는 “SG랭의 언어 수준 프리미티브와 런타임 최적화의 통합은 소프트웨어와 하드웨어의 정렬이 새로운 성능 수준을 어떻게 실현할 수 있는지를 보여주는 사례”라며, “당사의 인프라와 전문성을 바탕으로 SG랭의 RL 프레임워크 및 멀티 LLM 시스템 개발을 지원했으며, 앞으로도 전 세계 개발자를 위한 혁신적 추론 성능 향상을 지속 지원할 것”이라고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지