시장조사 기관인 스태디스타(Statista)에 따르면, 자동 음성 인식 시장 규모는 올해 71억 4천만 달러로 성장할 것으로 전망된다. 음성이 대부분의 커넥티드 기기와 AI 챗봇에 통합된 기능으로 자리 잡으면서 음성 인식은 중요한 기술 분야로 부상했다.

이러한 급속한 확장 속에서 오픈AI는 현재 이용 가능한 상용 또는 오픈소스 음성 인식 모델보다 우수한 것으로 평가되는 오픈소스 모델인 ‘위스퍼’를 출시했다. 월 500만 회 이상의 다운로드를 기록하는 위스퍼는 자동 음성 인식 시스템의 표준이 되어 수만 개의 애플리케이션에 활용되고 있다.

이런 가운데 음성 인식 기술 전문업체인 ai올라(aiOla)가 멀티헤드 어텐션 아키텍처를 기반으로 오픈AI의 ‘위스퍼(Whisper)’보다 성능 저하 없이 50% 더 빠른 속도로 수행하는 ‘위스퍼-메두사(Whisper-Medusa)’를 출시했다.

ai올라의 새로운 오픈소스 모델인 ‘위스퍼-메두사’는 모델이 토큰을 예측하는 방식을 변경하여 위스퍼보다 속도를 크게 향상시켰다. 위스퍼가 한 번에 하나의 토큰을 예측하는 반면, 위스퍼-메두사는 한 번에 열 개의 토큰을 예측할 수 있어 음성 예측 속도와 생성 런타임이 50% 향상되었다. ai올라는 깃허브와 허깅 페이스에 모델의 가중치와 코드를 공개하여 커뮤니티가 접근할 수 있도록 결정했다.

ai올라의 연구 부사장인 길 헤츠는 “LLM의 속도와 지연 시간을 개선하는 것은 자동 음성 인식 시스템보다 훨씬 쉽다. 인코더와 디코더 아키텍처는 연속적인 오디오 신호를 처리하고 노이즈나 억양을 다루는 복잡성이 큰 과제이다. 이러한 과제들을 새로운 멀티헤드 어텐션 접근법을 사용하여 해결했고, 그 결과 위스퍼의 높은 정확도를 유지하면서 예측 속도가 거의 두 배인 모델을 만들어냈다.”라고 설명했다.

위스퍼-메두사는 멀티헤드 어텐션을 기반으로 하며 약한 지도 학습을 사용하여 훈련된다. 이 과정에서 위스퍼의 주요 구성 요소들은 처음에 고정된 상태로 유지되며 추가 매개변수들이 훈련된다. 이 훈련 과정은 위스퍼를 사용하여 오디오 데이터세트를 전사하고, 이 전사본들을 메두사의 추가 토큰 예측 모듈을 훈련하기 위한 레이블로 사용하는 것을 포함한다.

ai올라는 현재 10-헤드 모델로 위스퍼-메두사를 제공하고 있으며, 향후 동등한 정확도를 가진 20-헤드 버전을 출시할 계획이다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지