STT(Speech-to-Text) API는 다양한 기기와 애플리케이션에서 음성 합성과 인식을 활용할 수 있는 프로그래밍 인터페이스다. STT API는 컴퓨터가 들을 수 있는 언어를 텍스트로 번역하고 인식할 수 있는 방법을 탐구하는 컴퓨터 언어학의 한 분야다. 이를 ASR(자동 음성 인식) 또는 음성 텍스트 변환(STT)이라고도 한다. 여기에는 전기 공학, 컴퓨터 과학, 언어학의 연구와 지식이 포함된다.
전 세계 STT API 시장 규모는 2021년 24억 달러였으며, 2022년부터 2031년까지 연평균 성장률(CAGR) 17.8%를 기록하며 2031년에는 121억 달러에 이를 것으로 예상된다.
시장조사 전문 기관인 AMR(Allied Market Research)가 ‘Speech-to-text API 시장 전망, 2021~2031년’ 보고서를 통해 이 같이 전망했다.

많은 기업들이 고객 경험 개선을 위해 STT API를 채택함에 따라 소프트웨어 부문이 2021년 시장에서 가장 큰 점유율을 차지했다. 또한 STT API에 대한 관리와 전문 서비스 도입이 증가하고 있어 서비스 부문의 시장 점유율이 빠르게 성장할 것으로 예상된다.
지역별로는 북미 지역이 소비자의 가처분 소득 증가와 스마트폰에 대한 높은 수요로 2021년 가장 높은 성장률을 기록했다. 생활 수준의 향상, 음성 기반 지원과 원격 근무 등도 북미 시장의 성장을 주도하는 이유로 꼽혔다.

음성 기반 장치에 대한 수요 증가
지난 10년 동안 스마트 스피커, 휴대폰 등 스마트 기기가 증가하면서 모든 사람이 온라인 비디오 콘텐츠에 접근할 수 있도록 해야 할 필요성이 커졌다. 또한 음성 제어 기능이 있는 여러 가지 새로운 첨단 기기가 도입되고 있다. 여기에는 사용자가 스마트 장치를 통해 교육이나 엔터테인먼트, 기타 콘텐츠에 액세스할 수 있도록 하는 콘텐츠 변환, 컨퍼런스 콜 분석과 같은 음성 처리 기능이 포함된다.
이같은 고객 선호도를 반영함에 따라 음성을 텍스트로 변환하는 애플리케이션이 증가했다. 인터넷 보급률 증가, 기술 발전, 자동화에 대한 인식 증가 등의 요인으로 인해 스마트 홈과 스마트 가전 수요도 늘고 있다. 또한, 코로나19 팬데믹으로 인해 일상생활의 거의 모든 측면에서 스마트 기기와 가전제품의 사용이 많아지고 재택 근무를 하게 되었으며, 이로 인해 STT API에 대한 수요가 증가하고 있다.
STT 기술 분야에서 AI 수요 증가
음성 인식 기술의 발전으로 자연어 처리(NLP)와 음성 품질이 좋아졌고 소비자의 요구에 부응하는 음성 지원 인터페이스를 개발할 수 있게 되었다. AI, 클라우드 컴퓨팅, 정보 기술의 지속적인 향상으로 인해 음성을 텍스트로 변환하는 것이 매우 빨라졌고, 대화형 장치가 음성을 정확하게 인식할 수 있어 시스템의 자가 학습 능력이 향상됐다.
캡션과 자막의 다국어 지원
콘텐츠 제작자는 전 세계의 모든 언어에 대해 정확하게 대본과 자막을 만들어야 한다. 하지만 STT API 솔루션은 여러 지역에서 현지 언어를 사용하는 국가에서는 구현하기가 어렵다.
몇몇 STT API 솔루션 제공 업체는 단일 언어를 사용하고 현지 사투리 외에 다른 언어를 말할 수 없는 사용자가 스마트폰에서도 STT 기능에 액세스할 수 있도록 개발하고 있다. 미시 언어와 현지어를 위한 STT API 솔루션을 개발하면 큰 이점을 얻을 수 있을 것으로 보인다.
장애 학생을 위한 STT 솔루션
STT API 기술의 도움으로 모든 비디오나 오디오 기반의 콘텐츠를 컴퓨터에서 텍스트로 변환할 수 있다. 이를 통해 어려움을 겪는 청취자나 난청이 있는 학생이 다른 사람의 도움 없이 올바르게 읽고 작업을 수행할 수 있다.
예를 들어, STT 변환 소프트웨어를 사용하면 청각 장애 학생이 교사나 급우와 의사소통할 수 있다. 장애인 교육법(IDEA)은 장애 학생을 위한 대화형 소프트웨어를 제공한다. 노던일리노이대학교의 게일렌 캐퍼먼과 조디 스티켄은 STT 기술의 도움을 받아 학생들이 네메스 코드(수학을 위한 점자 코드)를 공부하는 데 도움이 되는 대화형 소프트웨어 튜토리얼을 개발했다. 이 소프트웨어는 합성 음성 소프트웨어와 새로 고침이 가능한 점자 디스플레이를 갖춘 소형 휴대용 점자 노트 메이커인 브라유 라이트(Braille Lite)에 설치된다.
다중 채널의 오디오 텍스트 변환
여러 채널의 오디오를 변환하는 것은 해결해야 할 과제다. 여러 개체를 정의하는 것이 어렵고 부정확한 변화이나 캡션을 유발할 수 있기 때문이다. 더욱이 저품질 마이크, 잔향과 에코, 악센트 변화는 변환 정확도를 저하시킬 수 있다.
STT API는 다양한 유형의 데이터 세트를 통해 다중 채널 음성 인식을 위해 적절하게 훈련되어야 한다. 그러나 기업이 여러 채널의 음성을 텍스트로 정확하게 변환하는 접근 방식과 솔루션을 구축하기 위해 다양한 데이터 세트를 수집하는 것이 어려워지고 있어 STT API 산업의 성장을 방해하고 있다.
이 시장의 주요 업체로는 스피치매틱스(Speechmatics), 마이크로소프트(Microsoft), 레브닷컴(rev.com), 아마존 웹 서비스(Amazon Web Service), 뉘앙스 커뮤니케이션즈(Nuance Communications), 보이스베이스(Voicebase), 보이스클라우드(VoiceCloud), 구글(Google), IBM, 앰버스크립트 글로벌(Amberscript Global) 등이 있다.
관련기사
- AI·ML 확산 가속, 'AI 훈련 데이터 세트' 시장 껑충!
- e-러닝 성장세에 AI 텍스트 생성기 시장도 껑충, 매년 ‘17.2% 성장’
- AI와 ML이 성장 주도하는 "음성 및 목소리 인식 시장"
- “비용 85%·시간 90% 절감”되는 “AI 기반 대규모·고속 캡션 솔루션” 등장!
- 음성·몸짓·표정까지 인간을 닮아가는 ‘디지털 휴먼’...기업 활용도 높아
- AI, 기회인가 재앙인가
- 글로벌 AIoT 시장, 2028년 912억 달러 전망
- AI 경험 판도 바꾸는 음성 챗봇 등장
- [강승우의 머신러닝 이야기] 딥러닝의 표현 학습
- '사용자 경험·운영 효율' 높이는 'AI 기반 소프트웨어 통합'
- 서비스형 통합 커뮤니케이션 시장, 2031년 1188억 달러 전망
- 보안성 높인 AI 기반 텍스트 음성 변환 솔루션, 원본과 같다?
- 150개 언어 지원 통화 번역기, 글로벌 회의가 편해졌네!
- 챗GPT 득세에도 여전히 원격 역할 중요해
- 유학생에 인기있는 "재정 지원 많은 미국 명문 대학"
- [캠핑족 필수품] 다용도 휴대용 27인치 FHD 엔터테인먼트 기기
- 정확도·성능 높이는 '콘볼루션 신경망 음성인식 시스템' 개발
- [CES 2024] LG가 꿈꾸는 '제로 노동 홈', 스마트 홈 AI 에이전트로 실현
- [CES 2024]삼성전자-테슬라, 스마트싱스 에너지 협업
- AI 기반 최대 5개국어 동시통역기 ‘X1 AI 통역사 허브’
- 하이파이 음악 애호가 버킷 리스트 '루악 오디오 100시리즈' 한국 상륙
- 플리토, 산업별 실시간 AI 통·번역 데이터 학습 서비스 개시
- [캠핑족 필수품] 강력한 사운드에 조명 쇼도 가능한 다기능 휴대용 스피커...캠핑과 대규모 파티에 인기
- 사람처럼 전자책 읽어주는 고품질 음성 합성
