모바일 기기나 노트북 등 에지 디바이스에서 실시간으로 음성, 영상, 텍스트 등 다양한 형태의 데이터를 처리하는 AI 기술에 대한 수요가 확대되고 있다. 사용자 인터페이스 고도화와 AI 상호작용이 일상화되면서, 멀티 모달 데이터를 동시에 처리할 수 있는 멀티모달 AI의 중요성이 강조되고 있다.

알리바바 그룹의 디지털 기술 부문인 알리바바 클라우드는 3월 31일, 자사의 퀜(Qwen) 시리즈 중 멀티모달 모델 ‘퀜2.5-옴니-7B’를 발표했다.

이 모델은 텍스트, 이미지, 음성, 영상 등 다양한 입력 형태를 처리하고, 실시간 텍스트 생성 및 자연스러운 음성 응답을 지원한다. 이 모델은 허깅 페이스, 깃허브, 퀜 챗(Qwen Chat), 모델스코프(ModelScope)를 통해 오픈소스로 공개되었다.

알리바바 클라우드의 멀티모달 AI 모델 퀜2.5 옴니
알리바바 클라우드의 멀티모달 AI 모델 퀜2.5 옴니

텍스트·음성·영상 통합 처리, 멀티 모달간 간섭 최소화

퀜2.5-Omni-7B는 70억 개 파라미터(7B)를 기반으로 작동하며, 이미지-텍스트, 영상-음성, 음성-텍스트 등 다양한 모달리티 조합의 데이터를 처리할 수 있도록 학습되었다. 알리바바 클라우드는 이 모델이 시각장애인을 위한 음성 안내, 요리 영상 분석을 통한 단계별 설명, 고객 응대 시스템 등에 활용될 수 있다고 설명했다.

해당 모델에는 ‘싱크 토커(Thinker-Talker) 아키텍처’가 적용되어 텍스트 생성과 음성 합성 기능을 분리하여 모달 간 간섭을 줄였다. 또한, 비디오와 오디오를 동기화하는 TMRoPE(Time-aligned Multimodal RoPE), 끊김 없는 음성 응답을 위한 블록와이즈 스트리밍(Block-wise Streaming) 처리 기술을 적용해 실시간 상호작용 품질을 개선했다.

광범위한 데이터 기반 학습

퀜2.5-옴니-7B는 텍스트, 이미지, 음성, 영상 데이터를 포함한 다양한 데이터셋을 활용해 사전 학습되었으며, 멀티모달 통합 인식·추론 능력을 평가하는 옴니벤치(OmniBench)의 벤치마크에서 높은 성능을 기록했다. 인컨텍스트 러닝 기반의 상황 이해 능력, 강화학습 기반의 음성 응답 최적화 기술을 통해 발음 오류, 정지 현상 등에서도 개선 효과를 보였다.

알리바바 클라우드는 지난해 9월 퀜2.5를 최초 공개한 이후, 2025년 1월 퀜2.5-Max 모델을 선보여 챗봇 아레나(Chatbot Arena)에서 7위에 오르기도 했다. 이 외에도 시각 정보 이해에 특화된 퀜2.5-VL, 장문 입력 처리 모델 퀜2.5-1M 등 다양한 모델을 오픈소스로 공개해 퀜 시리즈의 활용 범위를 넓히고 있다. 퀜2.5-옴니-7B는 텍스트, 음성, 영상 등 복합 정보 환경을 다루는 다양한 산업 및 서비스에 적용 가능성이 주목되고 있다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지