알리바바 클라우드가 새로운 오픈소스 영상 생성 모델 ‘완(Wan) 2.1-FLF2V-14B’를 공개했다고 24일 밝혔다.

알리바바 클라우드의 파운데이션 모델 시리즈 ‘완 2.1’ 중 하나인 완 2.1-FLF2V-14B는 텍스트와 이미지 입력을 기반으로 이미지와 영상을 생성하는 데 최적화됐다. 숏폼 콘텐츠 제작자는 자신만의 AI 모델과 애플리케이션을 효율적이고 경제적으로 개발할 수 있다.

Wan2.1-FLF2V-14B로 생성한 영상의 장면
Wan2.1-FLF2V-14B로 생성한 영상의 장면

이번 모델의 핵심 기술은 ‘제어 조정 메커니즘(Control Adjustment Mechanism)’이다. 사용자가 제공한 시작 프레임과 종료 프레임을 제어 조건으로 활용해, 두 장면 사이의 부드럽고 정밀한 전환이 가능하다. 또한, 시작 프레임과 종료 프레임에 포함된 의미 정보를 생성 과정에 반영해 프레임을 동적으로 변형하면서도 스타일과 콘텐츠, 구조적 일관성을 함께 유지할 수 있다.

현제 이 모델은 오픈소스 플랫폼인 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드의 오픈소스 커뮤니티 모델스코프(ModelScope)에서 자유롭게 활용할 수 있다.

완 시리즈의 공식 웹사이트에서는 이 모델을 활용해 720p 해상도의 5초 분량 영상을 무료로 생성 가능하다.

한편, 알리바바 클라우드는 지난 2월에도 완 2.1 시리즈 내 4종 모델을 오픈소스로 공개했다. 이 시리즈는 중국어와 영어 기반 텍스트 효과를  지원하는 영상 생성 AI 모델로, 영상 생성 벤치마크 플랫폼 ‘VBench 리더보드(VBench Leaderboard)’에서 종합 1위를 차지한 바 있다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지