멀티모달 AI 평가 도구 'MLLM 심판'... 환각 감지·객체 검증·유효성 테스트 지원

AI 기반 이미지 생성 및 해석 기술이 급속히 발전하면서, 기업들은 이미지와 텍스트를 함께 활용하는 멀티모달 AI 시스템을 적극 도입하고 있다. GPT-4o, 클로드 오퍼스 및 구글 제미나이 출시 이후, 기업들은 고객 가치를 창출하기 위해 이미지 생성에 막대한 투자를 해왔다. 그러나 이러한 AI 경험이 확장됨에 따라 LLM 시스템의 예측 불가능성 또한 증가한다.

이러한 시스템이 생성하는 정보의 정확성과 신뢰성을 보장하는 것은 여전히 중요한 과제로 남아 있다. 특히 AI 모델이 존재하지 않는 정보를 생성하는 ‘AI 환각’ 현상이 문제로 대두되고 있으며, 이에 대한 효과적인 검증 도구의 필요성이 커지고 있다.

글로벌 AI 개발, 벤치마킹 및 최적화 기업 패트로너스 AI(Patronus AI, CEO 아난드 칸나판)가 이미지-텍스트 애플리케이션을 위한 멀티모달 AI 시스템을 평가하고 최적화할 수 있는 평가 서비스 ‘멀티모달 LLM 심판(MLLM-as-a-Judge)’을 출시했다.

이 서비스는 제미나이를 기반으로 AI 엔지니어가 텍스트 존재 여부, 격자 구조, 공간 방향 및 객체 식별을 검사한다. 사용자는 멀티모달 AI 애플리케이션의 품질을 반복적으로 측정하고 개선할 수 있다.

특히 ▲캡션 환각 감지 (표준 및 엄격) ▲기본 및 비기본 객체 설명 검증 ▲객체 위치 정확도 ▲이미지 캡션 정확성 검증 ▲표 형식 데이터에 대한 OCR 추출 정확도, AI 생성 브랜드 자산 정확도 및 장면 설명 유효성 테스트 등을 지원한다.

한편, 패트로너스 AI는 제미나이를 선정한 이유를 오픈AI의 GPT-4V와 같은 대안보다 더 신뢰할 수 있는 MLLM 심판 역할을 수행할 수 있으며, 자기 중심성이 낮고 판단에 더 공정한 접근 방식을 보이는 것으로 나타난 것을 들었다. 특히, 자체 내부 평가 데이터셋에서 제미나이의 백본이 다른 멀티모달 LLM에 비해 더 나은 성능을 보였다고 전했다.

현재 사용중인 예로, 독립 판매자용 마켓플레이스 에트시(Etsy)는 이미 패트로너스 AI의 MLLM 기반 심판을 구현해 제품 이미지의 캡션 환각을 감지 및 완화하고 있다. 또한 패트로너스AI 플랫폼을 활용해 멀티모달 AI 시스템을 최적화하고 있다.

패트로너스 AI는 향후 오디오 및 비전 기능을 포함하도록 멀티모달 평가 기능을 확장할 계획이다.

패트로너스 AI CEO 아난드 칸나판(Anand Kannappan)은 "우리의 사명은 항상 AI의 확장 가능한 감독을 발전시키는 것이었다."라며, "우리의 MLLM 기반 심판은 멀티모달 시스템에 대한 투명하고 신뢰할 수 있는 평가를 제공함으로써 이러한 중요한 과제를 해결한다"라고 말했다.

배성철 기자 epsilondelta@gttkorea.com

기자의 다른기사

상단영역

본문영역

멀티모달 AI 평가 도구 'MLLM 심판'... 환각 감지·객체 검증·유효성 테스트 지원

패트로너스 AI, 멀티모달 AI 시스템 평가 및 최적화 서비스 출시
멀티모달 AI 애플리케이션 품질 반복적 측정·개선

관련기사

본문영역

키워드

관련기사