사람처럼 말버릇과 추임새를 흉내 내며 자연스러운 대화를 구현하는 인공지능(AI) 음성 대화 기술이 국내 연구진에 의해 개발됐다.

서울대학교 공과대학 컴퓨터공학부 김건희 교수 연구팀은 대화 중 ‘음…’, ‘그니까…’ 같은 말버릇과 ‘맞아’, ‘응’ 등의 추임새, 그리고 끼어들기와 감정 표현까지 반영한 음성 대화 생성 모델 ‘BeDLM’을 개발하고, 이를 구현하기 위한 세계 최대 규모의 음성 대화 행동 데이터셋 ‘Behavior-SD’를 함께 구축했다고 밝혔다.

팟캐스트, 상담 AI, 돌봄 서비스까지 적용 가능함 음성 생성AI 모델 개발한 서울대 공학부 김건희 교수 연구팀
팟캐스트, 상담 AI, 돌봄 서비스까지 적용 가능함 음성 생성AI 모델 개발한 서울대 공학부 김건희 교수 연구팀

10만개 패턴, 2000시간 음성 대화 데이터 셋 구축

김 교수팀은 기존 텍스트 기반 AI 대화 모델이 실제 사람 간의 자연스러운 말투를 반영하지 못한다는 한계에 주목했다. 이러한 문제를 해결하기 위해 연구팀은 총 10만 개의 대화 패턴과 2000시간에 달하는 음성 대화를 수집·주석 처리한 ‘Behavior-SD(Spoken Dialogue)’ 데이터셋을 구축했다. 이 데이터셋은 사람 간의 실제 대화를 반영해 말버릇, 추임새, 끼어들기 등 다양한 대화 행동을 정밀하게 포함하고 있다.

이 데이터를 바탕으로 개발된 ‘BeDLM (Behaviorally Aware Spoken Dialogue Generation with Large Language Models)’은 거대 언어 모델(LLM)에 기반하여 대화 상황과 화자의 행동 패턴을 입력받아 실제 사람처럼 말하는 음성 대화를 생성할 수 있다. 특히 사람 특유의 말버릇과 반응을 자연스럽게 포함시킬 수 있어 기존의 기계적인 말투를 극복하는 진일보한 성능을 보였다.

이 성과는 2025년 4월 말 미국 뉴멕시코주 앨버커키에서 열린 세계적 자연어처리 학회 ‘NAACL 2025’에서 구두 발표됐으며, 음성 처리 및 언어 이해 분야 최고 논문상(Senior Area Chair Award)을 수상하는 쾌거를 거뒀다. NAACL은 AI가 인간 언어를 이해하고 생성하는 자연어처리(NLP) 분야의 세계 최고 권위 학회 중 하나로 꼽힌다.

팟캐스트, 상담 AI, 돌봄 서비스까지 적용 가능, 오픈소스 공개로 확산 기대

BeDLM은 단순한 기술적 진보를 넘어, 실제 산업에서의 적용 가능성이 높은 모델로 평가된다. 팟캐스트 콘텐츠 제작, 정서적 교류가 중요한 상담 AI, 사용자 맞춤형 음성 비서, 고령자 돌봄 서비스 등에 활용될 수 있으며, 사람과 AI 간의 상호작용을 보다 몰입감 있게 만들 것으로 기대된다.

또한 김 교수팀은 Behavior-SD 데이터셋과 BeDLM 모델 코드를 오픈소스로 공개해 국내외 연구자 누구나 자유롭게 사용할 수 있도록 했다. 이를 통해 관련 기술의 글로벌 확산과 후속 연구가 촉진될 전망이다. 특히 상담, 교육, 케어 등에서 음성 AI의 역할이 확대되는 흐름 속에서 BeDLM은 핵심 인프라로 주목받을 수 있다.

김건희 교수는 “사람은 대화 중에도 끊임없이 상대의 반응에 맞춰 말투와 흐름을 조절하는데, 기존 AI는 이 부분을 놓치고 있었다.”라며, “이번 연구는 AI가 사람처럼 적응하며 대화할 수 있도록 한 점에서 의미가 크다.”라고 밝혔다. 

서울대는AI 향후에도 사람의 행동 패턴을 더욱 정밀하게 반영하는 음성 대화형 AI 기술 고도화를 지속할 예정이며, 실제 산업 현장과의 연계를 통해 실용화와 기술 확산을 목표로 연구를 이어갈 계획이다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지