이미지와 텍스트가 결합된 생성AI는 일상과 산업 전반에서 활용 범위가 빠르게 넓어졌지만, 위험 콘텐츠를 제대로 구분하지 못해 예상치 못한 유해 응답을 출력하는 문제가 반복되고 있다. 범죄 조장, 사생활 침해, 부적절한 조언 등이 실제 서비스에 출력되는 사례가 늘면서, 모델 내부에서 위험을 먼저 감지하고 차단하는 구조적 안전성이 절실해진 상황이다. 

한국전자통신연구원(ETRI)이 생성AI 모델에 안전성을 구조적으로 내재화한 시각언어모델 ‘세이프 라바(Safe LLaVA)’를 공개했다고 26일 밝혔다. 

이 기술은 기존 데이터 중심 파인튜닝 방식과 달리 약 20종의 안전성 기준을 모델 내부에 직접 내장해 유해 입력 발생 시 안전한 답변과 근거를 함께 제시한다.

ETRI는 이 기술을 대표 비전-언어(VL) 모델인 ‘라마’, ‘쿠엔(Qwen)’, ‘젬마(Gemma)에 동일하게 적용해 ▲세이프 라바(7B/13B) ▲세이프 쿠엔-2.5-VL(7B/32B) ▲세이프 젬마-3-IT(12B/27B) 등 총 6종을 공개했다. 세이프 라바는 국제공동연구로 개발된 기존 라바 모델 구조를 기반으로 안전성을 강화한 버전이다.

ETRI 연구진이 시각언어모델 세이프 라바(Safe LLaVA)를 통해 ‘약물’ 관련 질의에 대한 모델 응답 결과를 확인하는 모습(자료제공=ETRI)
ETRI 연구진이 시각언어모델 세이프 라바(Safe LLaVA)를 통해 ‘약물’ 관련 질의에 대한 모델 응답 결과를 확인하는 모습(자료제공=ETRI)

7대 위험 분야 탐지 기능 내장

기술 핵심은 AI 모델 내부에 20여 개 유해성 분류기를 통합한 점이다. 이를 통해 이미지·텍스트 입력에서 ▲불법 활동 ▲폭력 ▲혐오 ▲사생활 침해 ▲성적 콘텐츠 ▲자해 위험 ▲전문조언(의료·법률 등)의 7개 분야에 대한 위험을 자동 탐지하고 안전 응답과 판단 근거를 제시한다.

ETRI는 모델과 함께 통합 안전성 벤치마크 데이터셋인 ‘홀리세이프(HoliSafe)’도 공개했다. 홀리세이프는 약 1700장 이미지와 4000여 개 문답 쌍으로 구성됐으며, 7개 카테고리·18개 세부 항목 전반에서 위험 탐지 능력을 정량 평가하는 기준으로 활용된다. 이미지·텍스트 조합 안전성을 동시에 평가한다.

연구진은 소매치기 사진과 범죄 방법 질문 등을 함께 입력하는 실험을 통해 세이프 라바가 불법행위 요청을 즉시 거부하고 위험성을 명확히 지적한 반면, 국내 생성AI 모델 중 일부는 범죄 실행 방법을 구체적으로 안내하는 등 안전한 차단에 실패했다고 밝혔다. 정량 실험에서는 세이프 라바가 93%, 세이프 쿠엔이 97%의 안전 응답률을 기록해 기존 공개 모델 대비 최대 10배 수준의 성능을 보였다.

ETRI는 한국어 대형언어모델 개발사업 및 사람중심 인공지능 원천기술 개발 사업과 연계해 K-AI 안전성 연구를 확대할 계획이다.

ETRI 이용주 시각지능연구실장은 “현재 인공지능 모델들이 이미지 기반 유해성 탐지에 취약하고, 문맥 속 위험 추론에서도 한계를 보이고 있다.”라며 “이번 연구는 국내 생성AI의 안전한 활용을 위한 기반을 마련한 중요한 성과”라고 말했다. 

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지