회의, 강의, 고객센터 콜 등 음성 데이터가 폭발적으로 늘어나면서 이를 정확히 인식하고 텍스트화하는 기술의 수요가 높아지고 있다. 특히 교육, 미디어, 고객 상담 산업에서는 다국어 음성 데이터를 처리해 검색 가능한 문서로 전환하거나 자막을 제작해야 하는 요구가 증가하고 있다.
AI·바이오메트릭스 전문 기업 뉴로테크놀로지(Neurotechnology)가 자연어 처리 소프트웨어 개발 키트 ‘뉴로테크놀로지 AI SDK’를 출시했다고 밝혔다.
이 SDK는 영어, 리투아니아어, 라트비아어, 에스토니아어 등 발트 3국 언어와 영어를 지원하며, 개발자가 자체적으로 멀티언어 AI 음성 솔루션을 구축할 수 있다.

음성 인식·화자 분리·음성 감지
신제품 SDK는 세 가지 핵심 엔진을 포함한다. ‘자동 음성 인식(ASR)’ 엔진은 음성을 고정밀 텍스트로 전환하며, ‘화자 분리(Speaker Diarization)’ 엔진은 여러 명이 대화하는 오디오를 화자별로 구분한다. 또한 ‘음성 활동 감지(VAD)’ 기능은 발화와 침묵을 구분해 불필요한 구간을 걸러준다. 이 기능들은 독립적으로 또는 조합해 사용할 수 있어 개발자가 세밀하게 제어할 수 있다.
SDK는 교육기관의 강의 기록, 미디어 업계의 영상 자막 제작, 콜센터 대화 분석 등 다양한 분야에 활용할 수 있다. 특히 청각장애인을 위한 접근성 도구 개발에도 적용 가능하다.
모든 처리는 온프레미스 환경에서 수행돼 데이터 보안과 프라이버시를 보장하며, 마이크로소프트 윈도우와 리눅스를 모두 지원한다. 또한 GPU 가속으로 성능을 강화하면서도 CPU에서도 안정적으로 동작해 확장성과 접근성을 동시에 확보했다.
생태계 통합과 개발 편의성
뉴로테크놀로지 AI SDK는 자사 바이오메트릭스 제품군인 ‘베리스피크(VeriSpeak)’와 ‘메가매처(MegaMatcher)’와도 통합돼 빠르고 정확한 화자 인식 기능을 제공한다. 모듈형 아키텍처를 기반으로 C, C++, 자바, .NET, 파이썬 등 다양한 언어를 지원해 개발자가 손쉽게 적용할 수 있다. 라이선스 정책은 단순한 영구 사용 방식으로, 필요에 따라 구성 요소별 추가 라이선스를 구매해 확장할 수 있다.
뉴로테크놀로지 비타스 물레비추스(Vytas Mulevičius) NLP 팀 리드는 “발트 3국 언어 지원으로 현지 언어를 정확히 이해하는 AI 솔루션 개발이 쉬워질 것”이라고 말했다.
