AI 추론 기술은 대규모 언어 모델과 멀티모달 애플리케이션의 실시간 대응 성능을 결정짓는 핵심 요소다. 특히 생성AI와 비전 언어 모델이 고도화되면서 추론 효율성과 확장성 확보는 기업과 연구기관에 있어 필수 과제가 되고 있다. 이에 따라 소프트웨어 최적화와 하드웨어 인프라의 통합 접근이 요구되고 있다.
글로벌 AI 클라우드 플랫폼 기업 노비타AI(Novita AI)가 대규모 언어 및 비전-언어 모델 추론 엔진 ‘SG랭(SGLang)’과 전략적 파트너십을 체결했다고 발표했다. 노비타 AI는 이번 협력을 통해 SGLang의 연구와 성능 벤치마킹, 최적화 프로젝트에 고성능 GPU 클라우드 인프라를 제공할 계획이다.
구조화된 생성 언어와 성능 혁신
SG랭은 구조적 생성 언어와 고도로 최적화된 런타임을 공동 설계한 추론 엔진으로, 레딕스(RadixAttention) 캐시 재사용 및 제로 오버헤드 배치 스케줄링을 구현해 대규모 언어 및 멀티모달 모델에서 탁월한 성능을 발휘한다.
이 엔진은 언어 수준 제어와 백엔드 최적화를 정렬해 복잡한 생성 워크플로, 멀티모달 애플리케이션, 병렬 추론 파이프라인을 안정적이고 확장성 있게 구축할 수 있도록 지원한다.

SG랭은 엔비디아(NVIDIA), AMD, xAI, 오라클 클라우드, 구글 클라우드, 링크드인, 커서(Cursor)를 비롯해 스탠포드대학, 캘리포니아대 버클리, UCLA 등 주요 연구기관과 협력하고 있다.
엔드투엔드 강화학습 프레임워크 및 LLM 플랫폼 개발
노비타AI는 이번 협력으로 SG랭의 연구, 벤치마킹, 최적화 작업에 고성능 GPU 클라우드 인프라를 제공한다. 이미 SG랭의 엔드 투 엔드 멀티턴 강화학습(RL) 프레임워크와 다중 대형언어모델(LLM) 서비스 시스템 ‘프리즘(Prism)’ 개발을 지원했다.
또한 양사는 SG랭의 대규모 전문가 병렬처리 프로젝트에도 공동으로 참여하고 있다. 이는 딥시크(DeepSeek) 공식 블로그에 공개된 처리량 벤치마크에 근접한 성능을 목표로 하는 오픈소스 구현 프로젝트로, 노비타AI가 인프라 및 공동 개발을 통해 지원 중이다.
노비타AI 공동창업자 겸 최고운영책임자(COO) 황쥔위(Junyu Huang)는 “SG랭의 언어 수준 프리미티브와 런타임 최적화의 통합은 소프트웨어와 하드웨어의 정렬이 새로운 성능 수준을 어떻게 실현할 수 있는지를 보여주는 사례”라며, “당사의 인프라와 전문성을 바탕으로 SG랭의 RL 프레임워크 및 멀티 LLM 시스템 개발을 지원했으며, 앞으로도 전 세계 개발자를 위한 혁신적 추론 성능 향상을 지속 지원할 것”이라고 말했다.
관련기사
- HPE-엔비디아, AI 팩토리 포트폴리오 강화
- 리눅스 기반 AI 최적화 OS...커널·배포·성능·보안 강화
- LLM 추론 데이터 보호 강화하는 ‘왕복 보호’ 기술...민감 정보 안전성 확보
- 블랙웰 GPU 품은 OCI...에이전틱 AI·추론 모델 혁신
- 스마트시티·보안 관제 산업 겨냥한 고성능·저전력 국산 AI 반도체 솔루션
- 엔비디아, ‘네모 마이크로서비스’ 출시...데이터 플라이휠 기술로 기업용 AI에이전트 개발 가속
- 지코어, 렛츠AI에 추론 인프라로 글로벌 AI 이미지 생성 플랫폼 안정적 운영 지원
- AI·ML·HPC 워크로드용 ‘프라이빗 엔비디아 GPU 인프라’
- AMD 5세대 에픽 프로세서 품은 구글 클라우드 가상 머신 C4D·H4D
- 텔럼 II 프로세서 기반 AI 메인프레임 ‘IBM z17’...하루 4500억 건 추론·AI 어시스턴트와 에이전트 지원
- ‘엔비디아 NIM’ 기반 AI 모델 추론 배포 자동화...LLM 운영 효율 극대화
- 구글 클라우드, AI 인프라와 레지던시 혁신 공개
- 성능 2배 향상한 ‘에지용 오픈소스 AI 모델’...비용 절감·보안 강화
- 경량·고성능 오픈소스 멀티모달 생성AI..이미지 생성·편집 최적화
- [기고문]공공 서비스 혁신하는 클라우드와 AI 융합
- 에이아이브, 36억 규모 클라우드 기반 ‘고난이도 AX 연구지원 플랫폼 구축’ 사업 수주
- GPU 자원 효율 2배 높인 에이아이브 ‘에어클라우드’, 실리콘밸리서 기술력 입증
