음성 기반 AI의 수요는 고객 상담, 금융 서비스, 헬스케어, 이커머스 등 다양한 산업에서 빠르게 증가하고 있다. 기존 음성 합성 기술은 응답 지연과 기계적인 음성으로 인해 자연스러운 대화 구현에 한계가 있었다.
특히 고객 지원 센터에서는 응답 속도가 길어질수록 고객 불만이 증가하고, 금융 및 보안 환경에서는 정확성이 핵심인 만큼 초저지연·고품질 음성 AI에 대한 수요가 증가하고 있다.
실리콘밸리 스타트업 보이싱 AI(Voicing AI)가 플래그십 음성 합성 엔진 ‘캣(Kat)’을 통해 70밀리초(ms) 이하 응답 속도를 구현했다고 밝혔다.
초저지연·고품질 음성 합성 엔진
에이전트 음성 AI 플랫폼 캣은 평균 의견 점수(MOS) 4.6 이상을 달성해 자연스러운 발음과 명료성을 제공한다. MOS는 국제전기통신연합(ITU)에서 권장하는 음성을 평가해 평균을 낸 점수로, 4.6 이상은 실제 사람 음성과 거의 구분되지 않는 수준을 의미한다.
독립 벤치마킹 결과, 짧은 확인 응답부터 복잡한 설명까지 모든 문장에서 경쟁사 대비 품질 우위를 유지하면서도 77~79% 빠른 응답 속도를 보였다.

캣은 언어 분석, 스타일 컨디셔닝, 적대적 피드백 루프를 포함한 6단계 지능형 파이프라인을 통해 자연스러움을 극대화한다. 자체 개발한 음성 인식(STT) 엔진은 ‘화자 분리(speaker diarization)’와 ‘실시간 개인식별정보(PII) 마스킹’ 기능을 탑재해 소음이 심한 전화 환경에 최적화됐다.
보이싱 AI의 모델은 단순 발화뿐만 아니라 정보 검색, API 호출, 다단계 요청 처리까지 수행할 수 있다. 이를 위해 자체 대규모 언어모델(LLM)을 구축하고, 검색증강생성(RAG), 함수 호출, 에이전트 스타일 추론에 최적화했다.
인프라 측면에서는 vLLM, 텐서RT(TensorRT)-LLM, 딥스피드(DeepSpeed) 기반의 초고속 추론 스택과 4비트·8비트 양자화를 적용해 에지 환경에서도 경량 배포가 가능하다.
감정 지능 기반·다국어 지원
보이싱 AI는 단조로운 TTS와 달리 대화 맥락에 따라 톤과 감정을 변화시켜 서비스 장애 상황에서는 사과의 어조, 프로모션에서는 활기찬 어조, 불만 응대에서는 공감하는 어조를 구현한다. 또한 단일 다국어 아키텍처로 40여 개 언어를 네이티브 수준으로 지원하며, 코드 스위칭도 자연스럽게 처리한다.
고객 지원과 핀테크 파일럿 프로젝트에서 보이싱 AI의 음성 에이전트는 87%의 통화 완료율을 기록해 업계 평균인 63%를 상회했으며, 최초 통화 해결률도 82%로 기존 71% 대비 개선됐다. 플랫폼은 단순 콜 처리용 ‘타이니(Tiny)’ 모델부터 복잡한 환경 대응 ‘울트라(Ultra)’ 모델까지 다양한 변형을 제공하며, 양자화 버전은 에지 환경에서 3~5배 높은 처리량을 구현한다.
보이싱 AI의 초저지연 음성 AI는 자연스러운 인간 대화 경험을 구현하며, 고객 응대 효율성 및 산업별 적용 가능성을 입증하고 있다. 이 기술은 실시간 AI 인터랙션 기업 고객에게 새로운 경쟁력을 제공할 것으로 전망된다.
관련기사
- ‘지능형 음성 AI 에이전트’...부서 간 작업 자동화로 기업 운영 혁신
- ‘음성 AI’로 콜센터 운영 최적화...고객 인증·실시간 라우팅으로 고객 상담 효율 극대화
- 인간형 음성 AI 에이전트...기업 고객 대응 자동화로 월25만건 처리
- 말버릇·추임새까지 재현하는 음성 AI, 인간다운 대화의 새 지평 열다
- AI 음성 자동화 기술, 고객 서비스·업무 효율성 동시 향상
- 고객이 환영하는 ‘노코드 음성 AI 가상 상담원 플랫폼’...구축에서 운영까지 빠르고 쉽게
- “전 연령대 소비자, 디지털보다 전화 선호”...고객 서비스로 음성 AI 확대 추세
- 다국어 지원 규정준수 모니터링 및 위험 감지 솔루션...아태지역 금융기관·글로벌 기업 주목
- 서비스형 LLM ‘LLMaaS’ 기업 AI 보안·규정 준수 강화
- AI 고객 경험의 성패, ‘통합·신뢰·인간 협업’이 좌우
- 자연어 기반 ‘AI 음성 에이전트’...24시간 FAQ 응답·예약 처리 속도 2배↑
- 초저지연 AI 음성 모델, 컨택센터·게임 산업 혁신
- 맥락 인지 ‘음성 AI 플랫폼’...산업·직무별 맞춤 지원으로 생산성↑
- AI·인간 상담 결합 ‘하이브리드 음성 AI’...법률·의료·홈서비스 콜센터 통화 비용 35%↓
- AI 투자에도 기업 93%, 고객 경험 실패...기업 내부 문화가 걸림돌
- 40개 언어 지원 초저지연 음성 AI...금융 고객 대화 실시간 자동화
- ‘답변’에서 ‘행동’으로, 음성 통합 협업형 AI 에이전트가 고객 문제 종단 간 해결
- 사이냅소프트, 음성 AI 시장 진출...비정형 데이터 자산화 기술 ‘보이스애널라이저’로 확장
- 지연 시간 5배 단축한 병렬 음성 AI...실시간 고객 대응·전사 효율 극대화
