화자 인증 및 식별 시스템은 미리 저장된 목소리인지 구별하고 검증하는 시스템으로, 최근 자동 회의록 시스템, AI 스피커, IoT (Internet of Thing, 사물인터넷), IoE (Internet of Everything, 만물인터넷), 금융 서비스, 공공기관 민원상담 등 다양한 산업에서 활발히 도입되고 있다.
기업이 화자 인증 및 식별 시스템에 관심 갖는 배경에는 보안과 개인 맞춤형 서비스 제공에 있다. 음성명령만으로 원하는 정보부터 쇼핑, 가정 내 전자 제품 제어까지 가능하며, 일부 금융권에서는 빠른 고객 대응을 위해 본인 여부 확인용으로 활용 중이다. 하지만 여전히 한국어 음성 인식률이 낮고 정확한 인증 및 식별의 어려움이 많아 서비스 확대에 한계가 있었다.
AI 번역 음성인식 기술 전문기업 엘솔루(옛 시스트란 인터내셔널)가 고려대학교 SLP(Speech and Language Processing, 이하 SLP) 랩과 협력해 고성능 한국어 화자 인증 및 식별 시스템 개발에 나선다고 8일 밝혔다.

이번에 공동 개발될 한국어 최적화 고성능 음성인식 시스템은 ▲기존 음성인식 모델의 인코더 분리 후 데이터 학습 및 소음을 제거하는 자기 지도학습 알고리듬의 ‘생성형 사전 학습 모델’ ▲등록된 목소리와 입력된 목소리 간의 일치 여부를 자동 판별하는 화자 인증 및 다자간 대화에서 화자 식별이 가능한 고성능 한국어 ‘음성인식 화자분리 시스템’ 등 두 가지이다.
이를 위해 양측은 금융·공공기관에서의 한국인 본인 인증과 다자간 회의록 서비스 내 적극 도입과 함께 20년 넘게 수집된 양질의 데이터와 다국어 언어처리 기술을 활용할 방침이다.
이번 시스템 개발에는 엘솔루와 함께 구글의 AI 스피커 ‘구글 홈’ 개발 등 구글의 음성인식 시스템 개발에 참여해 왔으며, 삼성리서치 글로벌 AI센터에서 삼성의 AI 음성인식 플랫폼 ‘빅스비’와 삼성 갤럭시 AI 온디바이스, 삼성전자의 대형언어모델(LLM)인 ‘삼성 가우스 AI’ 개발을 이끌어온 AI 음성처리 개발 분야 글로벌 전문가인 고려대학교 인공지능학과 김찬우 교수가 참여한다. 또한 포항공대 IT학부장 및 애플 R&D 센터장을 역임한 국내 자연어처리 분야의 최고 권위자인 엘솔루의 글로벌 CTO인 이종혁 포항공대 명예교수도 참여한다.
엘솔루 문종욱 대표는 “고성능 한국어 화자인증 및 식별 시스템의 개발은 기대 이상의 품질로 인공지능 컨택센터(AICC)의 업무 효율과 생산성을 극대화시킬 것으로 예상된다.”라며 “최근 사회에 큰 파장을 일으키고 있는 딥페이크·딥보이스 범죄를 예방하며, 빠른 언어 확장을 통해 전세계 화자 인증 및 식별 시장 또한 선도할 것”이라고 말했다.
관련기사
- 화웨이 'SVC', 글로벌데이터 ‘IMS·음성 코어 경쟁 환경 평가’ 1위 등극
- 대전소방본부, 재난 통신에 셀바스AI ‘온디바이스 음성인식’ 탑재
- 빠르고 안전한 다중 채널 통합 음성 인증 시스템
- 100개 이상 언어 지원 ‘비디오 번역 도구’...대량 콘텐츠 제작 프로세스 간소화
- AI 전화 상담원 통합해 기업과 고객간 소통 혁신하는 ‘자동화 API’
- AI 생성 음성파일 99% 탐지하는 딥페이크·가짜 정보 탐지 솔루션 ‘펄스 인스펙트’
- 자동 음성인식 시스템 ‘위스퍼’보다 50% 빠른 ‘위스퍼-메두사’
- IoT 에지용 생성AI 음성 인식 기술
- 딥엘, 글로벌 언어 서비스 사용량 1위 AI 번역 기업 선정
- 삼성전자, ‘24GB’ GDDR7 D램 개발... 용량 50%·속도 25%↑
- 엘솔루-캄보디아 국가 연구 기관, 'AI 음성인식·번역 솔루션' 공동 개발
- 민감 정보 숨겨 보안성 높이는 'AI 자동 음성인식 시스템'
