데이터가 다양한 분야에서 활용하고 되고 있는 가운데 감정이 포함된 자유로운 음성 대화가 인공지능 학습용 데이터 구축을 위한 기반 데이터로 활용될 전망이다.
미디어젠 컨소시엄이 한국지능정보사회진흥원 ‘2022년 인공지능 학습용 데이터 구축 : 감정이 태깅된 자유대화 음성 데이터 구축’ 사업을 수행하고 있다고 밝혔다.
컨소시엄은 미디어젠, 비디, 메트릭스로 구성됐으며, 음성 통화 녹음 및 자동 전사 시스템이 포함된 자체 수집 툴과 공정관리 시스템을 기반으로 데이터가 수집되고 있다.
‘인공지능 학습용 데이터 구축’ 사업은 과학기술정보통신부의 디지털 뉴딜 실행 계획의 하나로 한국지능정보사회진흥원(NIA)에서 수행하는 대규모 학습용 데이터 구축 사업이며, 구축된 데이터는 공익적인 목적으로 AI-Hub를 통해 일반에 공개된다. 이번 과제는 인공지능 데이터 중에서도 수집이 어려운 축에 속하는 자유대화 음성 데이터를 대규모로 구축한다는 데 큰 의미가 있다. 대화에 포함된 감정 상태를 분석할 수 있는 정보를 함께 제공해 음성인식, 화자인식, 감정인식 등 다양한 분야에 활용할 수 있는 기초데이터를 제공할 것으로 기대된다.
과제 책임을 맡은 미디어젠의 송민규 상무는 “이번 과제는 성인 및 청소년을 대상으로 자유로운 대화 데이터 수집을 진행하고 있으며, 특히 최근 많이 사용되고 있는 신조어 및 젊은 층의 발화 스타일을 수집할 수 있는 중고등학생들의 적극적인 참여를 권장한다”고 밝혔다.
데이터 수집은 일반인 및 청소년 크라우드 워커(Crowd Worker) 지원자를 대상으로 소정의 참가비를 지급한다. 크라우드 워커 참가 지원 관련 정보와 문의는 메트웍스에서 확인할 수 있다.
한편 미디어젠은 음성 및 언어 AI 전문 ‘남즈(NAMZ) 연구소’를 운영하고 있으며, AI 음성 인식 기술을 활용한 AICC 스마트 콜봇, AI 에듀테크, AI 헬스케어, AI 키오스크 등 다양한 인공지능 관련 사업을 활발하게 진행하고 있다.

관련기사
- AI 하드웨어와 소프트웨어로 기업의 하이브리드 클라우드 경험 향상
- ETRI, 엣지 디바이스 위한 AI 서비스 개발 플랫폼 구축 나선다
- 컨택센터 속에 녹아든 인공지능, 직원과 고객 만족도 높인다
- '기업 대화 분석 데이터', AI 컨택센터 꿈꾸다
- 진화하는동영상 편집 SW, AI 기반 자동 자막·음성·시각효과 까지!
- AI 로봇 이용한 에듀테크 시대 온다
- 글로벌 주요 24개 언어 음성 인식 기술, 국내 기술로 개발
- '숫자연산 기계독해 데이터' 구축으로 인공지능 활용도↑
- 당신의 음성은 무슨색?음성인식 컬러 스펙트럼 개발
- 이전 대화 기억하는 AI 대화 모델로 챗봇 영역 확대 나선다
- 법무부 '차세대 형사사법정보시스템'에 들어간 'AI 음성인식'
- 미디어젠, 의료용 LLM 학습 데이터 구축 나선다
