트랜스포머 알고리즘에 기반을 둔 심층 학습망 음성 인식 시스템은 E2E(Ear to Eye) 시대를 맞아 빠른 기술 발전 속에 인식 성능 면에서 정점에 오르고 있다. 트랜스포머 알고리즘은 많은 양의 학습 데이터를 소화하며 그 성능을 향상해 왔다. 그러나 초거대 용량의 학습 데이터 출현으로 그 성능 향상 정도는 어느 정도 포화 상태에 이른 상황이다. 이런 상황에서 음성 인식 성능을 높이려면 음성 인식 특징을 추출하는 새로운 방법을 모색하는 등 네트워크 아키텍처뿐만 아니라 다양한 기술 분야의 연구가 요구되고 있다.
현재 가장 널리 사용되는 음성 인식 특징은 ‘로그 멜 스펙트럼’이지만, 이 특징은 음성 신호의 다양한 생성 과정을 포함하지 못한다는 단점이 있다. 또 심층 학습망의 특성상 입력이 되는 특징이 다양한 음성의 특징적 요소를 각각 표현해줄 수 있어야 이를 바탕으로 더 지능적인 학습을 진행할 수 있다.
AI 음성인식 기술 기업 미디어젠(대표 고훈)은 한국전자통신연구원(ETRI)의 연구 인력 현장 지원 프로그램을 통해 기존에 음성 스펙트럼 채널이 1개인 것을 보완해 RGB 3채널을 이용한 음성 스펙트럼을 개발했다고 밝혔다.
미디어젠은 ETRI 연구 인력 현장 지원 프로그램을 통해 음성 발성 모델을 활용, 분석된 성도 필터 정보와 신호 정보를 채널화해 RGB 구성 요소를 갖는 컬러 스펙트럼을 개발했다. 일반적으로 성도 필터 정보는 음소를 표현하기에 적합하며 배경 잡음에 상대적으로 강인한 특성이 있고, 신호 정보는 음성 정보뿐만 아니라 발성 개인의 특성을 잘 표현해준다.

컬러 스펙트럼에서는 이런 정보를 분석한 뒤 특징화해 음성 인식 시스템을 학습할 때 이를 심층 학습망에 알려주어 인공지능이 음성 인식에 필요한 특징 정보를 선택하도록 도움을 준다. 이를 증명하기 위해 수행된 텐서플로(Tensorflow) 기반 딥스피치2(DeepSpeech2) 음성 인식 시스템 실험에서 기존 로그 멜 스펙트럼 음성인식 시스템보다 20% 이상 ERR 성능이 향상됐다.
미디어젠 송민규 상무는 “ETRI 연구 인력 현장 지원 프로그램을 통해 개발된 컬러 스펙트럼은 음성 인식뿐만 아니라 TTS, 화자 분리, 감정 인식 등 음성 기반의 모든 분야 및 오디오 관련 응용 분야 등 활용 범위가 매우 넓다”며 “음성 인식 성능 향상의 경우, 이미지 처리를 위해 개발된 다양한 네트워크 아키텍처들을 채용해 더 다양하고 효율적인 음성 인식 시스템 구성이 가능할 것으로 기대된다”고 말했다.
관련기사
- 클라우데라가 전망하는 '2023년 4대 주요 기술'
- 셀바스AI, AI바우처 수요기업 모집
- 1초만에 한영 실시간 번역하는 AI 기반 자동번역 시스템
- 글로벌 주요 24개 언어 음성 인식 기술, 국내 기술로 개발
- 감정도 태그될까요?
- ETRI, 엣지 디바이스 위한 AI 서비스 개발 플랫폼 구축 나선다
- 아틀라스랩스, NLP 기술 기반 고객센터 솔루션 위해 90억 원 규모 시리즈A 투자 유치
- [MWC 2023] 세계가 주목하는 국산 AI·통신·미디어 최신 기술
- 이전 대화 기억하는 AI 대화 모델로 챗봇 영역 확대 나선다
- 국내 한국어 AI 연구에 획 그은 '엑소브레인' 10년간의 여정 마무리
- 법무부 '차세대 형사사법정보시스템'에 들어간 'AI 음성인식'
- ETRI, 공공기관 오픈소스 활용·확산 적극 지원
- ETRI, 미래 모빌리티 관련 시장과 사업화 유망 기술 382개 소개
- IoT·웨어러블 기기·AI 발전으로 ‘감정 감지 인식 솔루션’ 고속 성장
- ETRI, '인간 이해' AI 연구 논문대회 성료
- ETRI, 기술사업화 전문 정책지 ‘테크비즈 인사이트’ 2호 발간
- 자유자재로 음성 변환하는 AI 기반 솔루션 ‘파인셰어’
- 웹사이트 필요해? 말만 해!
- 미디어젠, 세계육상선수권대회에 한국어 음성 AI 기술 공급
- 미디어젠, 의료용 LLM 학습 데이터 구축 나선다
