시장조사 기관인 스태디스타(Statista)에 따르면, 자동 음성 인식 시장 규모는 올해 71억 4천만 달러로 성장할 것으로 전망된다. 음성이 대부분의 커넥티드 기기와 AI 챗봇에 통합된 기능으로 자리 잡으면서 음성 인식은 중요한 기술 분야로 부상했다.
이러한 급속한 확장 속에서 오픈AI는 현재 이용 가능한 상용 또는 오픈소스 음성 인식 모델보다 우수한 것으로 평가되는 오픈소스 모델인 ‘위스퍼’를 출시했다. 월 500만 회 이상의 다운로드를 기록하는 위스퍼는 자동 음성 인식 시스템의 표준이 되어 수만 개의 애플리케이션에 활용되고 있다.
이런 가운데 음성 인식 기술 전문업체인 ai올라(aiOla)가 멀티헤드 어텐션 아키텍처를 기반으로 오픈AI의 ‘위스퍼(Whisper)’보다 성능 저하 없이 50% 더 빠른 속도로 수행하는 ‘위스퍼-메두사(Whisper-Medusa)’를 출시했다.

ai올라의 새로운 오픈소스 모델인 ‘위스퍼-메두사’는 모델이 토큰을 예측하는 방식을 변경하여 위스퍼보다 속도를 크게 향상시켰다. 위스퍼가 한 번에 하나의 토큰을 예측하는 반면, 위스퍼-메두사는 한 번에 열 개의 토큰을 예측할 수 있어 음성 예측 속도와 생성 런타임이 50% 향상되었다. ai올라는 깃허브와 허깅 페이스에 모델의 가중치와 코드를 공개하여 커뮤니티가 접근할 수 있도록 결정했다.
ai올라의 연구 부사장인 길 헤츠는 “LLM의 속도와 지연 시간을 개선하는 것은 자동 음성 인식 시스템보다 훨씬 쉽다. 인코더와 디코더 아키텍처는 연속적인 오디오 신호를 처리하고 노이즈나 억양을 다루는 복잡성이 큰 과제이다. 이러한 과제들을 새로운 멀티헤드 어텐션 접근법을 사용하여 해결했고, 그 결과 위스퍼의 높은 정확도를 유지하면서 예측 속도가 거의 두 배인 모델을 만들어냈다.”라고 설명했다.
위스퍼-메두사는 멀티헤드 어텐션을 기반으로 하며 약한 지도 학습을 사용하여 훈련된다. 이 과정에서 위스퍼의 주요 구성 요소들은 처음에 고정된 상태로 유지되며 추가 매개변수들이 훈련된다. 이 훈련 과정은 위스퍼를 사용하여 오디오 데이터세트를 전사하고, 이 전사본들을 메두사의 추가 토큰 예측 모듈을 훈련하기 위한 레이블로 사용하는 것을 포함한다.
ai올라는 현재 10-헤드 모델로 위스퍼-메두사를 제공하고 있으며, 향후 동등한 정확도를 가진 20-헤드 버전을 출시할 계획이다.
관련기사
- IoT 에지용 생성AI 음성 인식 기술
- 클라우드 컴퓨팅 확대 ‘서비스형 머신러닝’ 가치 상승
- '자동 데이터 캡처' 시장, "데이터 자동화·오류방지·시간단축" 장점으로 상승가도
- 재교육 없이 전문 용어 즉시 이해하는 AI 음성 인식 시스템
- 자율주행·로봇공학 기술 발전 ‘딥러닝 파워 확산’
- 인간-기계 인터페이스 시장, 산업용 IoT와 친화적 인터페이스 요구 증가로 꾸준한 성장세
- 개인화된 맞춤형 콘텐츠 수요 증가 ‘콘텐츠 인텔리전스’ 황금기
- [기고] 흥미진진한 생성AI의 역사
- 주식∙암호화폐 정보 실시간 분석하는 ‘금융 챗봇’
- [기고] AI 윤리 문제 해결할 'AI 거버넌스' 7대 전략
- 빠르고 안전한 다중 채널 통합 음성 인증 시스템
- 대전소방본부, 재난 통신에 셀바스AI ‘온디바이스 음성인식’ 탑재
- 자동화·인간 전문성 결합한 ‘AI 챗봇’...“고객 경험 극대화”
- 엘솔루-고려대 산학협력단, 고성능 한국어 화자 인증 및 식별 시스템 공동 개발
- 엘솔루-캄보디아 국가 연구 기관, 'AI 음성인식·번역 솔루션' 공동 개발
- 민감 정보 숨겨 보안성 높이는 'AI 자동 음성인식 시스템'
