AI 기반 음성 인식 기술은 그동안 ‘속도’와 ‘정확도’ 사이의 절충을 피하기 어려웠다. 오픈AI의 위스퍼(Whisper)는 정밀한 인식 성능으로 평가받지만, 대규모 오디오 처리 시 과도한 지연이 발생한다. 반면 확산 기반 모델은 빠르지만 실제 환경의 잡음이나 억양에 취약해 정확도가 떨어진다.
음성 AI 연구소 아이올라(aiOla)가 음성 인식 오픈소스 모델 ‘드랙스(Drax)’를 공개했다. 드랙스는 플로우 매칭(flow-matching) 기반 생성 기법을 음성 인식에 적용한 모델로, 기존 시스템이 한 번에 하나의 음성 토큰만 처리하던 한계를 넘어 전체 문맥을 병렬로 분석한다. 이 방식은 긴 대화에서도 누적 오류를 최소화하고, 토큰 단위 지연을 제거해 실시간 성능을 구현한다.

아이올라 수석 과학자 요시 케셰트(Yossi Keshet) 교수는 “정확도와 속도 중 하나만 선택하던 시대는 끝났다.”며 “드랙스는 실생활에서도 신뢰할 수 있는 속도와 정밀도를 동시에 제공한다.”고 강조했다.
‘잡음에서 음성으로’...3단계 확률 경로 학습
드랙스는 이미지 확산 모델처럼 무작위 잡음에서 시작해 점진적으로 명확한 음성을 재구성하는 독자적 학습 구조를 채택했다. 초기의 불규칙한 음성 신호를 중간 단계에서 ‘불완전하지만 실제적인’ 상태로 정제하며, 다양한 억양·배경 소음·발음 오류에 대응하도록 훈련된다. 이러한 방식은 의료, 콜센터, 제조 등 장시간 대화와 규정 준수가 중요한 환경에서 특히 유용하다.
아이올라 AI 부사장 길 헤츠(Gil Hetz)는 “드랙스는 배경 소음이나 전문 용어에도 흔들리지 않는다.”며 “현실 환경에서 요구되는 수준의 정확성과 신뢰성을 모두 갖췄다.”고 설명했다.
아이올라의 연구 결과에 따르면 드랙스는 영어 벤치마크에서 단어 오류율(WER) 7.4%를 기록해 위스퍼 라지-v3(7.6%)보다 약간 우수했다. 일부 데이터세트에서는 알리바바의 퀀(Qwen2-Audio)보다도 높은 정확도를 보였으며, 실행 속도는 최대 5배 빠른 것으로 나타났다. 특히 스페인어, 프랑스어, 독일어, 중국어 등 다국어 환경에서도 안정적인 성능을 유지했다.
아이올라는 경량 플래시 버전부터 기본형 모델까지 세 가지 크기의 드랙스를 깃허브(GitHub)와 허깅페이스(Hugging Face)에 오픈소스로 공개할 예정이다. 이를 통해 연구자와 개발자는 모델을 자유롭게 테스트하고 커스터마이징할 수 있다.
아이올라 아미르 하람티(Amir Haramati) CEO는 “음성은 인간과 기계가 상호작용하는 가장 자연스러운 인터페이스”라며 “드랙스는 대규모 기업 환경에서도 음성 입력을 실시간으로 처리해 생산성과 효율성을 혁신할 것”이라고 밝혔다. 아이올라는 오픈소스 생태계를 중심으로 글로벌 연구 협업을 확대하고, 음성 기반 AI 애플리케이션의 표준화를 추진할 계획이다.
관련기사
- AI 훈련·추론 위한 인프라로 ‘OCI’ 부상...글로벌 AI 기업들 속속 채택
- 사이냅소프트, 음성 AI 시장 진출...비정형 데이터 자산화 기술 ‘보이스애널라이저’로 확장
- AI가 24시간 고객 응대를 자동으로...리드·콘텐츠·캠페인까지 통합 관리
- 40개 언어 지원 초저지연 음성 AI...금융 고객 대화 실시간 자동화
- 에이전틱 AI 음성 에이전트와 코파일럿으로 고객·직원 서비스↑
- AI·인간 상담 결합 ‘하이브리드 음성 AI’...법률·의료·홈서비스 콜센터 통화 비용 35%↓
- 맥락 인지 ‘음성 AI 플랫폼’...산업·직무별 맞춤 지원으로 생산성↑
- 초저지연 AI 음성 모델, 컨택센터·게임 산업 혁신
- 자연어 기반 ‘AI 음성 에이전트’...24시간 FAQ 응답·예약 처리 속도 2배↑
- AI 기반 의료 영상 센터 자동화, 데이터 입력 67% 절감·환자 알림 확인률 86% 달성
- “실시간 다국어·감정 구현” 음성 AI...초저지연 응답으로 고객 경험↑
- 음성·챗봇·콘텐츠 제작 등 6대 AI 도구 통합 ‘올인원 자동화 플랫폼’...마케팅·업무 혁신
- ‘지능형 음성 AI 에이전트’...부서 간 작업 자동화로 기업 운영 혁신
- ‘음성 AI’로 콜센터 운영 최적화...고객 인증·실시간 라우팅으로 고객 상담 효율 극대화
- 아고라-위즈.AI, 실시간 다국어 AI 에이전트 솔루션 공동 개발
- AI 협업의 새 단계...오픈AI, 한국에 ‘그룹 채팅’ 기능 시범 도입
- 일레븐랩스, 한국 공식 상륙...초저지연 음성 에이전트로 K-보이스 AI 시장 공략
