콘텐츠 커뮤니티 및 소셜 플랫폼인 콰이쇼우 테크놀로지(Kuaishou Technology)가 비디오 생성 모델 ‘클링(Kling)’과 이미지 생성 모델 ‘콜로스(Kolors)’ 등의 고급 기능을 포함한 종합적인 AI 모델 매트릭스를 선보였다.

클링의 새로운 기능에는 고화질 버전의 클링과 함께 시작 및 종료 프레임 제어와 샷 제어 기능이 포함된다. 또한 크리에이터를 위한 단일 텍스트-비디오 생성 시간이 10초로 연장되었다. 콜로스는 산업 활성화를 촉진하고 더욱 번성하는 텍스트-이미지 모델 커뮤니티 생태계를 구축하기 위해 공식적으로 오픈 소스화되었다.

콰이쇼우의 AI 모델 매트릭스에는 콰이이(KwaiYii) 대규모 언어 모델, 추천 대규모 모델, 시각 생성 모델이 주요 구성 요소로 포함된다. 이 모델들은 콘텐츠 생성, 이해, 추천, 기타 측면을 포괄한다. 특히 10조 개의 매개변수 규모를 가진 추천 모델인 SIM(Search-based Interest Model)은 세계 최고의 추천 시스템 중 하나다. 차세대 아키텍처인 ACT(Action Transformer)는 콰이쇼우 앱에서 사용자의 일일 사용 시간을 수억 분 증가시켜 사용자 참여와 활동을 크게 향상시킬 것으로 예상된다.

콰이이 대규모 모델을 바탕으로 콰이쇼우는 비디오 스크립트 생성, 실시간 라이브 스트리밍 스크립트 생성, 광고 리드 고객 서비스를 개발했으며, 이 모든 것이 디지털 휴먼 기술과 통합되었다.

클링 AI 웹 버전, 고급 프레임 및 샷 제어 기능 탑재

일반 사용자가 실제로 이용할 수 있는 비디오 생성 대규모 모델인 클링은 6월 6일에 텍스트-비디오 기능을 출시했다. 이미지-비디오 변환 및 비디오 확장 기능을 포함한 새 기능을 통해 최대 약 3분 길이의 비디오 생성이 가능하다. 실제 물리 법칙을 기반으로 클링이 생성한 비디오는 영화적 품질과 역동적 효과를 보여주며, 큰 움직임으로 생생한 물리적 움직임을 시뮬레이션하고 기존 비디오 생성 기술의 제약을 뛰어넘는다.

콰이쇼우의 시각 생성 및 상호작용 센터장인 완 펑페이(Wan Pengfei)는 “클링의 최신 출시가 동작 생성, 생성 지속 시간, 물리 법칙 준수, 비디오 품질, 명령 응답, 이미지-비디오 변환 및 비디오 제어의 7가지 영역에서 상당한 개선을 가져왔다. 이러한 업그레이드를 통해 10초 이상의 더 선명하고 관리하기 쉬운 비디오를 생성할 수 있게 되었다.”라고 말했다.

콜로스, 오픈 소스로 전환

콜로스는 콰이쇼우의 광범위한 대규모 언어 모델 전문 지식을 통합하여 수십억 개의 중국어 데이터 포인트로 훈련된 중국어 텍스트-이미지 모델이다.

콰이쇼우는 콜로스를 공식적으로 오픈 소스화하여 산업을 활성화하고 텍스트-이미지 모델을 위한 더욱 번성하는 커뮤니티 생태계를 조성하겠다고 발표했다.

또한 중국컴퓨터연합회(CCF)는 콰이쇼우와 협력하여 ‘CCF-콰이쇼우 대규모 모델 탐험 기금’을 설립한다고 발표했다. 이 기금은 2024년 말까지 12개의 연구 프로젝트를 시작할 계획이며, 주제당 최대 30만 위안의 지원을 받을 수 있다. 이 기금은 AI 기술의 급속한 발전과 업계의 첨단 기술에 대한 긴급한 수요를 해결하기 위해 차세대 대규모 모델의 핵심 기술 연구 및 개발에 초점을 맞추고 있다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지