AI 이미지 생성 모델의 고도화와 확산 속에서 고성능 GPU 수요와 VRAM 사용량 증가가 병목 요소로 작용하고 있다. 특히 스테이블 디퓨전 3.5와 같은 최신 모델은 18GB 이상의 VRAM을 요구해, 일반적인 시스템에서는 실행이 어려운 경우가 많다. 이러한 한계를 해결하기 위해 경량화 기술과 추론 최적화의 중요성이 부각되고 있다.

엔비디아(NVIDIA)가 스태빌리티 AI(Stability AI)와 협력해, 스테이블 디퓨전 3.5 모델에 FP8 양자화 및 텐서RT(TensorRT) 최적화를 적용해 성능과 메모리 효율성을 개선했다고 18일 발표했다.

FP8 양자화로 VRAM 사용량 40% 절감

스테이블 디퓨전 3.5 라지(Large) 모델은 기본적으로 18GB 이상의 VRAM을 요구하나, 엔비디아는 이 모델을 FP8 양자화를 통해 11GB만으로 구동 가능하도록 최적화했다. FP8 양자화는 중요도가 낮은 연산을 낮은 정밀도로 처리하면서도 모델의 정확도를 유지하는 기법으로, 엔비디아 지포스 RTX 40 시리즈 및 에이다 러브레이스(Ada Lovelace) 아키텍처 기반 RTX PRO GPU에서 지원된다. 최신 블랙웰(Blackwell) GPU에서는 FP4까지 확장된다.

스태빌리티 AI로 구현한 이미지
스태빌리티 AI로 구현한 이미지

양자화를 통해 모델 크기를 줄이고, 중요하지 않은 레이어를 제거해 기존 단일 GPU에서만 구동 가능했던 모델이 5대의 지포스 RTX 50 시리즈 GPU에서 동시에 실행 가능해졌다. 이를 통해 멀티 GPU 환경에서도 효율적으로 모델을 배포하고 운영할 수 있게 됐다.

텐서RT 최적화로 처리 속도 2.3배 향상

엔비디아 텐서RT는 텐서 코어를 최적 활용할 수 있도록 설계된 AI 추론 백엔드로, 모델의 가중치와 그래프 구조를 RTX GPU 환경에 맞춰 정밀하게 최적화한다. 

FP8 텐서RT를 적용한 스테이블 디퓨전 3.5 라지 모델은 BF16 포맷의 파이토치(PyTorch) 모델 대비 2.3배 향상된 처리 성능을 보여줬으며, 메모리 사용량은 40% 감소했다. 같은 방식으로 최적화된 미디엄(Medium) 모델 역시 BF16 텐서RT 기준으로 파이토치 대비 1.7배 향상된 성능을 기록했다.

최적화된 모델은 현재 허깅페이스(Hugging Face)를 통해 공개되어 있으며, 일반 사용자와 개발자는 이를 통해 고성능 이미지 생성 작업을 더욱 원활하게 수행할 수 있다.

오른쪽 스테이블 디퓨전 3.5 FP8 양자화 모델은 왼쪽 FP16 모델과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.
오른쪽 스테이블 디퓨전 3.5 FP8 양자화 모델은 왼쪽 FP16 모델과 유사한 품질을 유지하면서 이미지 생성 시간을 절반으로 단축시킨다.

RTX용 텐서RT SDK 출시…JIT 컴파일로 통합성 강화

엔비디아는 RTX AI PC를 위한 독립형 텐서RT SDK를 새롭게 출시했다. 해당 SDK는 마이크로소프트 빌드(Microsoft Build)에서 처음 발표되었으며, 현재는 윈도우 ML(Windows ML) 프레임워크에서 프리뷰 형태로 제공되고 있다. 기존 텐서RT는 GPU 클래스별로 사전 엔진 생성과 패키징을 요구했지만, 새로운 SDK는 JIT(Just-In-Time) 컴파일 방식을 도입해 디바이스 설치 시 또는 첫 사용 시 자동으로 최적화 엔진을 생성할 수 있다.

SDK의 용량도 기존 대비 8배 축소되어 경량화됐으며, 마이크로소프트의 새로운 AI 추론 백엔드를 통해 손쉽게 통합 가능하다. 이 SDK는 엔비디아 개발자 포털에서 다운로드할 수 있으며, 윈도우 ML 프리뷰를 통해도 접근 가능하다.

엔비디아와 스태빌리티 AI는 최적화된 스테이블 디퓨전 3.5 모델을 오는 7월 중 엔비디아 NIM 마이크로서비스 형태로도 제공할 계획이다. 이를 통해 개발자와 크리에이터는 다양한 애플리케이션에서 해당 모델을 클라우드 기반으로 간편하게 배포하고 사용할 수 있게 된다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지