현재 생성AI 시장이 문장 위주의 생성 모델에서 점차 멀티모달 생성 모델로 변화가 이루어지고 있으며, 모델의 크기 경쟁에서 점차 작고 효율적인 모델이 출현할 예정이다.
한국전자통신연구원(ETRI, 원장 방승찬)이 생성AI와 이미지나 비디오를 해석하는 시각지능 기술을 결합해 문장을 입력하면 2초만에 이미지를 만드는 생성 시각지능 기술을 26일 공개했다.
이번에 공개되는 ETRI의 인공지능 모델 ‘코알라(KOALA)’ 3종과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종이다.

코알라 3종 모델은 파라미터별로 미국의 인공지능 플랫폼 허깅페이스(HuggingFace) 환경에서 공개됐다. 코알라는 공개SW 모델의 2.56B(25억 개) 파라미터를 지식 증류 기법을 적용해 700M(7억 개)로 줄였다. 또한 모델 크기를 1/3로 축소했고, 고해상도 이미지를 기존 대비 2배, 오픈AI의 인공지능 ‘달리(DALL-E) 3’ 대비 5배가량 개선했다.
ETRI는 코알라가 모델 생성 속도를 2초 내외로 만들고 모델의 크기도 줄여, 최근 문장(텍스트)에서 이미지를 만드는 국내·외 시장에서 8GB의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다고 밝혔다.
실제로 연구진이 “달 아래 화성에서 책을 읽고 있는 우주비행사의 사진”이라는 문장을 입력하자, 칼로(카카오브레인)는 3.8초, 달리 2(오픈AI)는 12.3초, 달리 3(오픈AI)는 13.7초가 걸린 것에 비해 코알라는 1.6초 만에 이미지를 만들었다.
한편 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 대해 질의응답할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’도 함께 공개했다.
코라바는 인공지능 분야 최우수학회 뉴립스(NeurIPS‘23)에 발표했고, GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 라바(LLaVA)를 활용했다. 연구진은 멀티모달 모델의 대안인 라바를 기반으로 한글을 더욱 잘 이해하고 기존에 없는 비디오 해석을 하도록 연구를 진행했다고 전했다.
이용주 ETRI 시각지능연구실장은 “향후 생성AI 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획이다.”라며 “글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정이다.”라고 말했다.
관련기사
- 오라클, LLM모델 지원 'OCI 생성AI 서비스' 출시
- ETRI, 5G/6G 데이터 폭증 해결할 광원 소자 개발
- 대형 멀티모달 모델 vs. 대형 언어 모델
- 21세기 산업혁명 ‘생성AI’ 파죽지세 성장
- ETRI AI분석 서비스 플랫폼, 국제 e스포츠 대회서 활약
- 전자상거래용 AI 제품 이미지 생성기
- 챗GPT와 연동한 파일 공유 서비스 'DirectCloud AI'
- 투자자들이 관심갖는 '비주얼 콘텐츠 생성AI 기술'
- 서비스나우-EY, 생성AI 거버넌스 개선 지원 협력
- 한국공개소프트웨어협회, 김택완 대표 신임회장 취임
- 큐브리드, 국방기술품질원에 오픈소스 DBMS 공급
- 10주년 맞은 하이퍼커넥트, 향후 10년은 AI에서 승부
- 메시지만 입력하면 비디오가 ‘뚝딱’
