현재 생성AI 시장이 문장 위주의 생성 모델에서 점차 멀티모달 생성 모델로 변화가 이루어지고 있으며, 모델의 크기 경쟁에서 점차 작고 효율적인 모델이 출현할 예정이다.

한국전자통신연구원(ETRI, 원장 방승찬)이 생성AI와 이미지나 비디오를 해석하는 시각지능 기술을 결합해 문장을 입력하면 2초만에 이미지를 만드는 생성 시각지능 기술을 26일 공개했다.

이번에 공개되는 ETRI의 인공지능 모델 ‘코알라(KOALA)’ 3종과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종이다.

ETRI연구진이 코알라 모델을 시연하는 모습
ETRI연구진이 코알라 모델을 시연하는 모습

코알라 3종 모델은 파라미터별로 미국의 인공지능 플랫폼 허깅페이스(HuggingFace) 환경에서 공개됐다. 코알라는 공개SW 모델의 2.56B(25억 개) 파라미터를 지식 증류 기법을 적용해 700M(7억 개)로 줄였다. 또한 모델 크기를 1/3로 축소했고, 고해상도 이미지를 기존 대비 2배, 오픈AI의 인공지능 ‘달리(DALL-E) 3’ 대비 5배가량 개선했다.

ETRI는 코알라가 모델 생성 속도를 2초 내외로 만들고 모델의 크기도 줄여, 최근 문장(텍스트)에서 이미지를 만드는 국내·외 시장에서 8GB의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다고 밝혔다.

실제로 연구진이 “달 아래 화성에서 책을 읽고 있는 우주비행사의 사진”이라는 문장을 입력하자, 칼로(카카오브레인)는 3.8초, 달리 2(오픈AI)는 12.3초, 달리 3(오픈AI)는 13.7초가 걸린 것에 비해 코알라는 1.6초 만에 이미지를 만들었다.

한편 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 대해 질의응답할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’도 함께 공개했다.

코라바는 인공지능 분야 최우수학회 뉴립스(NeurIPS‘23)에 발표했고, GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 라바(LLaVA)를 활용했다. 연구진은 멀티모달 모델의 대안인 라바를 기반으로 한글을 더욱 잘 이해하고 기존에 없는 비디오 해석을 하도록 연구를 진행했다고 전했다.

이용주 ETRI 시각지능연구실장은 “향후 생성AI 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획이다.”라며 “글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정이다.”라고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지