AI 영상 제작 시장에서는 언어마다 다른 발화 시간·음소 구조 때문에 영상과 음성이 어긋나는 문제가 빈번해, 자동 더빙의 동기화 정확도를 높일 기술적 접근이 필수 요소로 자리 잡았다.
AI 서비스 기업 이스트소프트(대표 정상원)가 자사 AI 자동 더빙 기술 연구 ‘대규모 언어모델(LLM)을 활용한 종단 간 다국어 자동 더빙 프레임워크(End-to-End Multilingual Automatic Dubbing via Duration-based Translation with Large Language Models)’가 중국 쑤저우에서 개최되는 인공지능·자연어 처리(NLP) 학회 ‘EMNLP 2025’에 채택돼 연구 결과를 발표했다고 17일 밝혔다.

이스트소프트 연구진은 원본 영상의 화자 발화 시간과 일치하는 더빙 영상을 생성하는 프레임워크를 제안했다. 기존 자동 더빙 시스템이 원본의 음성과 번역된 음성의 길이가 맞지 않아 부자연스러웠던 한계를 극복한 기술로, 자사 ‘페르소 AI 더빙(Perso AI Dubbing)’ 서비스 고도화를 위해 추진됐다.
프레임워크의 구조는 ▲STT(Speech-to-Text) ▲NMT(Neural Machine Translation) ▲TTS(Text-to-Speech) 세 가지 모듈로 구성되며, NMT 모듈에 LLM 기반 ‘발화 길이 조정 번역(DT, Duration-based Translation)’과 ‘발화 정지 정보 통합(Pause Integration)’ 개념을 도입했다.
발화 길이 조정 번역 기술은 원본 음성의 지속 시간을 기반으로 번역에 필요한 최적의 음소 수를 동적으로 예측해 번역의 길이를 제어한다. 발화 정지 정보 통합 기술은 음성에 포함된 묵음까지 반영해 원본의 발화 속도와 리듬을 자연스럽게 유지한 더빙 영상을 생성한다.
실험 결과, 이스트소프트 연구진 방식은 자사를 포함한 상용화된 AI 더빙 시스템 대비 영상·음성 싱크 정확도 24%, 다국어 청취 만족도 12% 향상됐다. 논문 리뷰에서도 높은 평가를 받았다. 자동 더빙의 핵심 난제인 시간 동기화 문제를 해결한 것은 물론 다국어 더빙의 확장성과 산업 내 적용 가능성을 높였다는 것이다.
이스트소프트는 AI 학회에서 인정받은 이 기술로 AI 더빙 서비스의 글로벌 경쟁력을 더 강화해 간다는 계획이다.
이스트소프트 정상원 대표는 “페르소 AI(Perso AI)는 실제 서비스에서 확인된 문제를 해결해 가며 AI 더빙 기술을 고도화해 왔다.”라며 “앞으로도 기술 경쟁력으로 글로벌 AI 더빙 시장을 이끌어 갈 것”이라고 전했다.
관련기사
- 32개국 음성 안내 ‘페르소 AI 휴먼 키오스크’, APEC 현장서 글로벌 방문객 맞이
- 나라지식정보-이스트소프트, AI 기반 AX 사업 'K-헤리티지 기반 지식검색·콘텐츠 확산' 협력
- 이스트소프트, AI 더빙으로 정부 ‘K-FAST 확산 지원 사업’ 선정...K-콘텐츠 글로벌 확산 추진
- 이스트소프트, AI 검색 엔진 ‘앨런’에 엑사원 4.0 탑재...에이전틱 AI 진화 가속
- 이스트소프트, 이스트에이드와 정부 ‘AI 파운데이션 모델’ 정예팀 합류
- 이스트에이드, 포털 줌에 ‘AI 1초 요약’ 전면 확대
- 이스트소프트, 알PDF 모바일에 AI PDF 요약 기능 추가...177개국 동시 출시
- 이스트소프트, 자회사 ‘라운즈’ 전국 42개 가맹점서 소비쿠폰 사용 지원
- 실시간 고속·고충실도 음성 생성...차세대 TTS API 경쟁 본격화
- 일레븐랩스, 한국 공식 상륙...초저지연 음성 에이전트로 K-보이스 AI 시장 공략
