AI 기반 음성 기술이 글로벌 콘텐츠 제작과 고객 서비스 분야에서 핵심 인터페이스로 자리 잡고 있다. 고품질 더빙과 현지화, 콜센터 자동화, 실시간 오디오 생성 등 수요가 폭발적으로 증가하며 로봇, 모빌리티, 교육, 게임, OTT까지 산업 전반에서 음성 중심 상호작용이 표준으로 부상하고 있다. 이러한 흐름 속에서 AI 오디오 기술 기업 일레븐랩스가 한국 시장 진출을 선언하며 본격 경쟁에 나섰다.

일레븐랩스는 21일 서울 JW메리어트에서 기자간담회를 열고 한국어 고도화 모델, 초저지연 음성 에이전트, 책임형 보안 프레임워크를 중심으로 한 전략을 발표했다. 행사에는 마티 스타니셰프스키(Mati Staniszewski) 공동 창업자 겸 CEO와 홍상원 한국 GTM 총괄이 참석했다.

스타니셰프스키 CEO는 “일레븐랩스는 기술에 목소리를 부여하고, 세상의 지식과 이야기, 그리고 에이전트에 생명을 불어넣는 음성 AI 기업”이라며 폴란드의 열악한 더빙 환경에서 출발한 창업 배경과 오디오 기술 혁신 필요성을 설명했다. 그는 한국을 가장 빠르게 성장 중인 시장으로 꼽으며, “한국어 발음·억양의 고도화를 위해 지난 1년간 집중적으로 모델을 개발했다.”라고 강조했다.

발표하고 있는 마티 스타니셰프스키 공동창업자 겸 CEO(자료제공=일레븐랩스)
발표하고 있는 마티 스타니셰프스키 공동창업자 겸 CEO(자료제공=일레븐랩스)

홍상원 지사장은 “한국은 99.98% 모바일 인터넷 보급률, 세계 1위 5G 인프라, 높은 콘텐츠 소비 및 제작 역량을 갖춘 시장으로, 글로벌 AI 보이스 기업이 기술을 시험하고 확산하기에 가장 적합한 시장”으로 평가했다. 이를 바탕으로 한국 시장에 공식 진출하며 한국을 아시아 보이스 AI 허브로 육성하겠다는 전략을 내놓았다.

초저지연 음성 에이전트·파운데이션 모델로 구축한 오디오 풀스택 

일레븐랩스는 음성 합성, 오디오, 제어 가능성, 그리고 인간과 유사한 상호작용에 대한 연구를 바탕으로 자체 개발한 파운데이션 모델을 기반으로 TTS(Text-to-Speech), STT(Speech-to-Text), 음악 생성 모델, 사운드 효과 모델, 오케스트레이션 모델 등 오디오 전 영역을 아우르는 기술을 구축했다. 

스타니셰프스키 CEO는 “우리 모델은 맥락을 이해하고 지문 없이 연기하며, 웃음·숨소리·멈춤 같은 인간적 표현까지 재현한다.”라고 설명했다. 실제 녹음 시연에서는 김유정 소설의 대사를 자연스러운 감정과 억양으로 연기했다.

일레븐랩스는 콘텐츠 제작자를 위한 크리에이티브 플랫폼과 기업 자동화를 위한 AI 에이전트 플랫폼 두 가지 축으로 제품을 제공하고 있다. 에이전트 플랫폼은 STT-LLM-TTS를 하나의 파이프라인으로 통합하고, CRM·결제·전화 시스템·세일즈포스(Salesforce)·허브스폿(HubSpot) 등 다양한 비즈니스 시스템과 바로 연결할 수 있다.

특히 실시간 분석, 평가, 추적하는 모니터링 기능과 주요 보안 및 규제 기준을 준수하여 엔터프라이즈급 보안 및 안정성을 갖추고 있다. 

홍상원 지사장은 일레븐랩스의 가장 차별화된 특징으로 ‘0.5초 미만 지연(latency)’이라고 말했다. 이는 고객센터 자동화·게임 NPC·음성 비서 등 엔터프라이즈 환경에서 끊김 없는 대화를 구현하는 핵심이다. 일레븐랩스는 대형 디지털은행 사례를 소개하며, 고객 문의 해결 시간이 15분에서 2분으로 단축, 전체 문의의 50%를 AI가 처리, 고객 만족도까지 상승했다는 결과를 공개했다.

발표하고 있는 홍상원 지사장(자료제공=일레븐랩스)
발표하고 있는 홍상원 지사장(자료제공=일레븐랩스)

한국어 모델 고도화 과정

한국어 모델 고도화는 이번 발표의 핵심 중 하나였다. 스타니셰프스키 CEO는 “한국어는 맥락에 따라 단어 의미가 달라지고 억양·발음 난도가 높아 개발이 어려운 언어”라며 고품질을 위해 오랜 기간 투자했다고 밝혔다.

이를 위해 한국 기업들과의 데이터 파트너십과, 보이스 코치·음성 전문가를 포함한 내부 전담팀을 구성해 감정·정서·억양·발화 습관에 대한 주석 작업을 직접 수행했다. 이 과정에서 오디오의 의미를 이해하는 정보가 더 중요했다. 그 결과, 현재 마켓플레이스에는 400개 이상의 한국어 음성이 등록돼 있어 다양한 사투리·연령·스타일을 구현할 수 있다.

보이스피싱 대응 위한 3C 책임형 프레임워크…규제기관과 탐지 기술 공동 개발

보이스피싱·딥페이크 등 음성 AI 오용 우려에 일레븐랩스는 기술적·제도적 대응 체계를 갖춘 ‘3C 프레임워크(Consent·Control·Compensation)’를 제시했다.

동의(Consent)는 본인 인증 기반 다단계 검증, 프로페셔널 보이스 클로닝 시 강화된 검증 절차, 스마트 계약을 통한 사용 범위·학습 범위·기간 명시 등이 포함된다.

통제(Control)는 AI 음성 탐지 정확도 99.5%의 탐지 기술, 콘텐츠 출처 영구기록(C2PA 기반), 실시간 모더레이션, 접근 이력 자동 보존, 역할 기반 접근제어 등 엔터프라이즈 보안 기능이 포함된다.

보상(Compensation)은 창작자를 보호하기 위해 음성 등록 즉시 수익이 정산되며, 스트라이프 커넥트를 통한 지속적 수익 배분 모델을 도입하고 있다. 이는 2차 창작물까지 보상이 이어진다.

스타니셰프스키 CEO는 “AI 음성 탐지 기술 고도화로 오용을 식별·차단하는 것이 핵심”이라며 한국·영국·미국의 보안 연구기관, 대학, 규제기관, 기업들과 협력해 AI 생성 음성 탐지 기술을 공동 개발 중이라고 밝혔다.

K-콘텐츠 글로벌화·CX 혁신 전략

홍상원 지사장은 한국 시장 전략을 ▲K-콘텐츠의 글로벌 확장 ▲고객 경험(CX) 강화 두 축으로 제시했다. 그는 “K-드라마·K-팝 등 콘텐츠 수요는 높지만 언어 장벽이 남아 있다.”라며 TTS 용 음성합성 모델 ‘일레븐(Eleven) v3’ 기반 다국어 더빙으로 감정·뉘앙스·호흡까지 재현해 실제 K-드라마 제작사는 10개의 언어의 더빙을 2주에서 3일로 줄였고, 기존 대비 비용 최대 95%, 시간 90% 절감했다고 말했다.

CX 측면에서는 초저지연 음성 에이전트를 기반으로 반복 문의의 70%를 AI가 처리하고, 상담사는 고난도 업무에 집중하도록 하는 모델을 강조했다. 실제 글로벌 이커머스 기업에서는 운영비 40% 절감과 고객 만족도 35% 향상을 달성했다는 사례도 공유됐다.

일레븐랩스는 향후 ▲로컬 엔지니어링팀 구축 ▲SI 파트너 확대 ▲한국 인플루언서·셀러브리티 보이스 마켓플레이스 협업 추진 ▲현장 맞춤형 교육 및 기술 문서 현지화 등을 통해 한국 전담 체제를 공식 가동할 계획이다. 현재 국내 활용 사례로는 SBS·MBC C&I, 크래프톤, 이스트소프트 페르소닷AI, 티로(회의록) 등이 소개됐다.

한국,  아시아 보이스 AI 허브 가속

일레븐랩스는 한국어 모델 고도화, 초저지연 AI 에이전트, K-콘텐츠 제작 효율화, 보안·책임형 AI 프레임워크를 기반으로 국내 시장에서 본격적인 확장을 선언했다. 방송·영화·게임 분야는 이미 도입이 진행 중이며, 2026년에는 고객경험·교육·핀테크·모빌리티 등 산업 전반에서 음성 기반 자동화를 가속할 방침이다.

일레븐랩스는 현재는 기업 고객을 중심으로 한 B2B 플랫폼 공급이 비즈니스의 핵심 구조다. 그러나 장기적으로는 누구나 쉽게 음성을 생성하고 활용할 수 있는 B2C 접근성 또한 열어두고 있으며, 특히 한국 시장 특성상 일반 크리에이터·인플루언서·셀러브리티가 자신의 음성을 직접 등록하고 보상을 얻는 마켓플레이스 기반 B2C 참여 모델을 확대할 계획이라고 밝혔다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지