영상 생성 시장은 생성AI 발전과 함께 정교한 시각 효과와 사실감을 구현하는 기술적 경쟁이 심화되고 있다. 특히 크리에이터와 개발자가 고품질 영상 콘텐츠를 신속하게 제작할 수 있는 자동화 도구에 대한 수요가 급증하고 있으며, 이를 뒷받침하는 고성능·고효율의 생성AI 모델이 각광받고 있다.

알리바바(Alibaba)가 MoE(Mixture-of-Experts) 아키텍처를 적용한 오픈소스 대규모 영상 생성 모델 시리즈 완2.2(Wan2.2)를 공개했다. 

완2.2 시리즈는 텍스트 기반 완2.2-T2V-A14B, 이미지 기반 완2.2-I2V-A14B, 텍스트·이미지 통합 하이브리드 모델 완2.2-TI2V-5B의 세 가지 모델로 구성됐다. 이번 발표는 크리에이터와 개발자들이 단 한 번의 클릭으로 고품질 시네마틱 영상을 제작할 수 있는 환경을 제공하기 위한 것이다. 완2.2 모델들은 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope)에서 무료 다운로드가 가능하다. 알리바바는 이전에도 완2.1 모델과 영상 생성·편집 통합 모델 완2.1-VACE를 오픈소스로 공개해 누적 540만 건 이상의 다운로드를 기록했다.

정밀 제어를 위한 MoE 기반 아키텍처

완2.2-T2V-A14B와 완2.2-I2V-A14B 모델은 MoE 아키텍처와 미적 데이터셋으로 훈련되어 다양한 영상 요소를 정밀하게 제어할 수 있다. 조명, 시간대, 색조, 구도, 초점 거리, 카메라 앵글 등 세밀한 설정이 가능하고 인물의 표정, 손 제스처, 스포츠 동작 등 복잡한 움직임 묘사에 강점을 갖는다.

또한 물리 법칙을 반영한 현실적 표현력과 지시 이해력을 기반으로 사실적인 영상 생성이 가능하다. 특히 시네마틱 프롬프트 시스템을 도입해 사용자가 원하는 시각적 의도를 세분화된 요소로 지정해 결과물에 반영할 수 있도록 했다.

긴 토큰으로 인한 연산 부담을 줄이기 위해 두 모델에는 확산 모델의 노이즈 제거 과정에 고노이즈 엑스퍼트(High-Noise Expert)와 저노이즈 엑스퍼트(Low-Noise Expert)를 도입했다. 고노이즈 엑스퍼트는 전체 장면의 구성을 담당하고, 저노이즈 엑스퍼트는 세밀한 디테일을 다듬는다. 두 모델 모두 270억 개 파라미터 중 매 스텝에서 140억 개만 활성화되며, 연산 소모를 최대 50%까지 줄이는 구조를 적용했다. 이를 통해 생성 효율을 높이는 동시에 고품질 영상 제작이 가능하다.

완2.2는 기존 완2.1 대비 이미지 학습 데이터 65.6%, 영상 학습 데이터 83.2% 이상 확대된 데이터셋으로 학습됐다. 이로 인해 복잡한 장면 표현과 창의적인 결과물에서 성능이 향상됐다. 하이브리드 모델 완2.2-TI2V-5B는 3D VAE 구조로 시간 및 공간 축을 4x16x16 비율로 압축해 전체 압축률 64배를 달성했다. 이 모델은 일반 GPU에서도 5초 분량의 720p 영상을 수 분 내 생성할 수 있으며, 높은 처리 효율성과 확장성을 제공한다.

알리바바는 글로벌 오픈소스 생태계 확산을 위해 지속적으로 모델을 공개하고 있다. 2월 완2.1 시리즈 4가지 모델을, 5월에는 완2.1-VACE 모델을 오픈소스로 제공했으며 이번 완2.2 시리즈 공개로 크리에이터와 개발자들의 창작 활동을 지원할 계획이다. 

[알림] GTT KOREA GTT SHOW는 오는 8월 12일 오후 2시부터 3시까지 “피해 큰 BPF Door 같은 커널 기반 악성코드 막는 EDR과 마이크로세그멘테이션 실전 보안 전략”을 주제로 웨비나를 진행합니다. BPF Door 같은 커널 기반의 악성코드가 사용하는 공격 기법과 침투 단계별 위협의 소개, EDR과 마이크로세그멘테이션이 어떻게 상호보완적으로 작동하여 침입 초기 탐지부터 내부 확산 차단까지 이어지는 보안 체계의 구축 전략과 새로운 형태의 변종 공격에 유연하게 대응하는 제로 트러스트 기반 보안 전략을 실전 사례와 함께 제시합니다.

저작권자 © 지티티코리아 무단전재 및 재배포 금지