알리바바가 최신 오픈소스 AI 모델 '완2.1-베이스(Wan2.1-VACE)'를 공개하며 영상 생성 및 편집 분야에서 혁신을 예고했다. 이 모델은 영상 제작 전 과정을 하나의 모델로 통합하여, 콘텐츠 창작의 효율성과 생산성을 크게 향상시킬 것으로 기대된다.
완2.1-베이스는 알리바바의 영상 생성 특화 모델 시리즈인 '완2.1'에 속하며, 업계 최초로 영상 생성과 편집 기능을 아우르는 오픈소스 통합 모델이다. 이 모델은 텍스트, 이미지, 영상 등 다양한 멀티모달 입력을 기반으로 영상 생성이 가능하며, 이미지나 특정 프레임을 참조해 편집하거나, 영상 내 선택 영역을 수정·재구성할 수 있는 고급 편집 기능을 제공한다.

또한, 완2.1-베이스는 이미지 샘플을 바탕으로 상호작용하는 객체가 포함된 영상을 생성하거나, 정적인 이미지를 자연스럽게 움직이게 하여 생동감을 부여할 수 있다. 포즈 전환, 움직임 제어, 깊이 조절, 색상 재처리 등의 기능도 포함돼 고도화된 영상 리페인팅을 지원한다.
알리바바는 이 모델을 통해 영상 편집 작업의 니즈를 고려한 첨단 기술을 다수 적용했다. 특히, 멀티모달 입력을 일괄 처리하는 통합 인터페이스 'VCU(Video Condition Unit)'와 시간적·공간적 요소를 정형화된 방식으로 표현하는 '컨텍스트 어댑터(Context Adapter)' 구조를 도입해 각 작업 개념을 효율적으로 모델에 주입할 수 있도록 설계됐다.
이러한 혁신적 기술 덕분에 완2.1-베이스는 SNS 숏폼 영상의 빠른 제작, 광고·마케팅용 콘텐츠 창작, 영상 후반 작업 및 특수효과 적용, 교육용 트레이닝 콘텐츠 제작 등 다양한 분야에서 폭넓게 활용될 수 있다.
알리바바는 오픈소스를 통해 영상 기반 AI 모델 훈련의 장벽을 낮추고, 더 많은 기업이 경제적인 방식으로 고품질 영상 콘텐츠를 제작할 수 있도록 지원하고 있다. 완2.1-베이스는 파라미터 수 기준으로 140억(14B) 버전과 13억(1.3B) 버전 두 가지 형태로 제공되며, 현재 허깅페이스, 깃허브, 알리바바 클라우드 오픈소스 커뮤니티 모델스코프에서 무료로 다운로드할 수 있다.
알리바바는 자사 개발 대규모 AI 모델을 오픈소스로 공개한 글로벌 주요 기술 기업 중 하나로, 현재까지 해당 모델들은 총 330만 건 이상의 누적 다운로드를 기록하며 높은 관심을 받고 있다.
관련기사
- 텍스트와 이미지로 AI 아바타 비디오 제작...영상 촬영·편집 과정 없애 편의성↑
- AI 음성 복제·음성 변조·동영상 템플릿 지원 '동영상 편집 SW'...더빙·내레이션·자막 음성 변환 등 활용도↑
- 50개 이상 AI 음성 변조·다국어 지원 300개 이상 텍스트 변환으로 콘텐츠 제작 품질 높이는 '히트포 에디메이커 윈'
- 위안소프트, 한국수력원자력에 ‘AI 강의 영상 제작·편집 솔루션’ 공급
- 알리바바 클라우드, 국내 제2 데이터센터 출범...AI 인프라 수요 본격 대응
- 알리바바 클라우드-유니플러스, 국내 스타트업 성장 지원 협력
- 비디오 불법 복제 탐지 엔진, 12개월간 25만 건 차단
- AI 도입과 지속가능성, 안정적·확장형 클라우드로 해결
- 알리바바 클라우드, 초거대 생성AI 코드 모델 ‘큐원3-코더’ 공개
- AI 융합 생태계 확장하는 알리바바, 큐원 기반 실생활 적용 본격화
- 알리바바 클라우드-플록, 큐원 기반 AI 해커톤으로 한국 AI 인재 육성 본격화
- AI 보컬 제거·AV1·프로레스 지원 '비디오 편집 SW'...영상 편집 효율·품질↑
- 딥러닝 모델 기반 생성AI, 이미지 한 장으로 영상 구현
