음성 기반 인공지능 전문 기업 미디어젠이 과학기술정보통신부의 기금 사업으로 한국지능정보사회진흥원(NIA)이 추진하는 '2022년 인공지능(AI) 학습용 데이터 구축 사업'에서 한국어 챗봇을 고도화하기 위한 한국어 멀티세션 대화 데이터를 성공적으로 구축했다.
미디어젠이 구축한 한국어 멀티세션 대화 데이터는 채팅 기반의 텍스트 데이터로, 구축 규모는 멀티세션 8만 개, 단일 세션을 기준으로는 22만 세션, 전체 발화는 308만 발화 수준에 해당한다. 멀티세션 대화란 시간 간격을 두고 여러 번 대화를 나눈 것으로 해당 데이터에서는 시간 간격을 두고 두 번, 세 번, 또는 네 번에 나눠 대화가 진행됐다. 이렇게 여러 번 대화를 나눈 멀티세션 대화 데이터는 이전 세션의 정보를 참고해 현재 세션의 대화에 반영하는 대화 모델을 개발하는 데 활용됐다.

이전의 한국어 챗봇은 여러 번 대화하더라도 늘 단일 세션으로 대화가 종료돼 대화의 연속성이 확보되지 않았다면 이번 미디어젠이 개발한 인공지능 대화 모델은 긴 맥락 아래에서 연속된 대화를 기억하고 대화 대응에 반영함으로써 대화의 연속성을 확보할 수 있게 됐다. 즉 챗봇이 사용자와 이전 대화를 참고해 이전 대화를 현재에 반영함으로써 사용자는 챗봇이 마치 자신을 잊지 않고 기억하고 있다는 인상을 받게 된다.
미디어젠에서 구축한 한국어 멀티세션 대화 데이터를 기반으로 다양한 인공지능 챗봇 서비스를 구현할 수 있을 것으로 기대를 모으고 있다. 독거노인들에게 안부를 묻고 건강 상태 체크하기, 자녀의 학교 숙제나 활동 여부 확인하기, 사용자와의 대화를 통해 문제를 해결하거나 제품/서비스를 안내하는 기능 제공하기 등 이전 대화 내용 반영이 필요한 분야에서 다양하게 활용될 수 있다. 또 여러 기관이 개발하고 있는 한국형 ChatGPT 개발에서도 대화 기억을 바탕으로 다양한 주제에 대한 자연스러운 대화하는 기능을 만드는 데 멀티세션 대화 데이터가 기여할 수 있을 것으로 기대하고 있다.
해당 사업의 총괄 책임자인 미디어젠 윤종성 리더는 “BlenderBot 2.0과 같은 외국 회사들의 알고리즘은 성능이 뛰어나지만, 영어로 학습이 돼 있어 한국어 성능은 기대에 미치지 못하는 상황이었다. 그러나 이번 한국어 멀티세션 대화 데이터를 구축함으로써 연속된 대화를 기억하고 대화에 반영하는 한국어 챗봇 인공지능을 성공적으로 개발할 수 있었다”고 말했다.
미디어젠은 음성과 언어 AI 전문 연구소 ‘남즈(NAMZ) 연구소’를 운영하고 있으며, AI 음성 인식 기술을 활용한 AICC 스마트 콜봇, AI 에듀테크, AI 헬스케어, AI 키오스크 등 다양한 인공지능 관련 사업을 진행하고 있다.
관련기사
- 미디어젠, 부산외대 온라인 교육 플랫폼 AI LMS 국내 최초 구축
- 당신의 음성은 무슨색?음성인식 컬러 스펙트럼 개발
- AI로 발음 교정까지 받는다…AI 솔루션 다양화
- 감정도 태그될까요?
- 미디어젠, AI 기반 영어 발음 평가 시스템 ‘스피치프로 v2’ 출시
- GPT-4 기반 AI, 소비자 불만 민원 편지도 잘 쓰네!
- 금융 IT 기기에 도입되는 AI 음성지능...사용자 편의성 높여
- 챗GPT-4 등 4대 LLM 지원하는 막강 AI 챗봇 빌더
- AI와 ML이 성장 주도하는 "음성 및 목소리 인식 시장"
- 미디어젠, 의료용 LLM 학습 데이터 구축 나선다
- 미디어젠, 헝가리에서 열린 ‘글로벌 조인트 AI 오픈 플랫폼’ 행사 키노트 발표
