AI 이미지 생성 모델의 고도화와 확산 속에서 고성능 GPU 수요와 VRAM 사용량 증가가 병목 요소로 작용하고 있다. 특히 스테이블 디퓨전 3.5와 같은 최신 모델은 18GB 이상의 VRAM을 요구해, 일반적인 시스템에서는 실행이 어려운 경우가 많다. 이러한 한계를 해결하기 위해 경량화 기술과 추론 최적화의 중요성이 부각되고 있다.
엔비디아(NVIDIA)가 스태빌리티 AI(Stability AI)와 협력해, 스테이블 디퓨전 3.5 모델에 FP8 양자화 및 텐서RT(TensorRT) 최적화를 적용해 성능과 메모리 효율성을 개선했다고 18일 발표했다.
FP8 양자화로 VRAM 사용량 40% 절감
스테이블 디퓨전 3.5 라지(Large) 모델은 기본적으로 18GB 이상의 VRAM을 요구하나, 엔비디아는 이 모델을 FP8 양자화를 통해 11GB만으로 구동 가능하도록 최적화했다. FP8 양자화는 중요도가 낮은 연산을 낮은 정밀도로 처리하면서도 모델의 정확도를 유지하는 기법으로, 엔비디아 지포스 RTX 40 시리즈 및 에이다 러브레이스(Ada Lovelace) 아키텍처 기반 RTX PRO GPU에서 지원된다. 최신 블랙웰(Blackwell) GPU에서는 FP4까지 확장된다.

양자화를 통해 모델 크기를 줄이고, 중요하지 않은 레이어를 제거해 기존 단일 GPU에서만 구동 가능했던 모델이 5대의 지포스 RTX 50 시리즈 GPU에서 동시에 실행 가능해졌다. 이를 통해 멀티 GPU 환경에서도 효율적으로 모델을 배포하고 운영할 수 있게 됐다.
텐서RT 최적화로 처리 속도 2.3배 향상
엔비디아 텐서RT는 텐서 코어를 최적 활용할 수 있도록 설계된 AI 추론 백엔드로, 모델의 가중치와 그래프 구조를 RTX GPU 환경에 맞춰 정밀하게 최적화한다.
FP8 텐서RT를 적용한 스테이블 디퓨전 3.5 라지 모델은 BF16 포맷의 파이토치(PyTorch) 모델 대비 2.3배 향상된 처리 성능을 보여줬으며, 메모리 사용량은 40% 감소했다. 같은 방식으로 최적화된 미디엄(Medium) 모델 역시 BF16 텐서RT 기준으로 파이토치 대비 1.7배 향상된 성능을 기록했다.
최적화된 모델은 현재 허깅페이스(Hugging Face)를 통해 공개되어 있으며, 일반 사용자와 개발자는 이를 통해 고성능 이미지 생성 작업을 더욱 원활하게 수행할 수 있다.

RTX용 텐서RT SDK 출시…JIT 컴파일로 통합성 강화
엔비디아는 RTX AI PC를 위한 독립형 텐서RT SDK를 새롭게 출시했다. 해당 SDK는 마이크로소프트 빌드(Microsoft Build)에서 처음 발표되었으며, 현재는 윈도우 ML(Windows ML) 프레임워크에서 프리뷰 형태로 제공되고 있다. 기존 텐서RT는 GPU 클래스별로 사전 엔진 생성과 패키징을 요구했지만, 새로운 SDK는 JIT(Just-In-Time) 컴파일 방식을 도입해 디바이스 설치 시 또는 첫 사용 시 자동으로 최적화 엔진을 생성할 수 있다.
SDK의 용량도 기존 대비 8배 축소되어 경량화됐으며, 마이크로소프트의 새로운 AI 추론 백엔드를 통해 손쉽게 통합 가능하다. 이 SDK는 엔비디아 개발자 포털에서 다운로드할 수 있으며, 윈도우 ML 프리뷰를 통해도 접근 가능하다.
엔비디아와 스태빌리티 AI는 최적화된 스테이블 디퓨전 3.5 모델을 오는 7월 중 엔비디아 NIM 마이크로서비스 형태로도 제공할 계획이다. 이를 통해 개발자와 크리에이터는 다양한 애플리케이션에서 해당 모델을 클라우드 기반으로 간편하게 배포하고 사용할 수 있게 된다.
관련기사
- 엔비디아, 스마트 시티 AI 구현 가속화하는 ‘옴니버스 블루프린트’ 공개
- 트렌드마이크로-엔비디아, 사이버트론 기반 AI 팩토리 보안 전략 발표
- ‘엔비디아 NIM’ 기반 AI 모델 추론 배포 자동화...LLM 운영 효율 극대화
- 가속 컴퓨팅 기반 LLM 최적화 기술, LLM 학습 수개월에서 수일 단축
- 엔비디아, 슈퍼컴퓨터 ‘다우드나’에 베라 루빈 아키텍처 제공
- HPE-엔비디아, AI 팩토리 포트폴리오 강화
- [컴퓨텍스 2025]엔비디아 그레이스 CPU C1, 기존 CPU 대비 에너지 효율성 2배 향상
- 서비스나우-엔비디아, 고성능 AI 추론 모델 개발...추론 정확도·속도 향상
- 엔비디아, ‘네모 마이크로서비스’ 출시...데이터 플라이휠 기술로 기업용 AI에이전트 개발 가속
- 4비트 양자화로 LLM 추론 속도 56%↑
- 엔비디아, RTX GPU 기반 최적화로 이미지 생성AI 성능 향상
- 성능 2배 향상한 ‘에지용 오픈소스 AI 모델’...비용 절감·보안 강화
- 초고속 AI 추론 모델 '오픈AI gpt-oss-120B·20B' 전 세계 실시간 활용
