AI 환각은 LLM이 사실에 근거하지 않고 잘못 해석된 학습 또는 입력 데이터에 기반하여 정당화되지 않은 잘못된 답변을 제시하는 현상으로, 기업과 개인에게 심각한 신뢰 문제를 일으키고 LLM의 향후 응용에 장벽이 될 수 있다.
일본 개인 인공지능(P.A.I)과 AI 클론 기술 개발 및 유통기업 알트(alt)가 대형 언어 모델(LLM)에서 환각을 자동으로 채점하는 엔진을 개발했다고 14일 발표했다. 이 기술은 생성AI에서 잘못된 출력 발생을 감지할 수 있게 해준다.
alt가 개발한 자동 환각 점수 평가 엔진은 환각 확률(환각 점수)을 자동으로 평가하는 자체 방법을 사용한다. 이 엔진은 JcommonsenseQA 데이터셋에서 생성된 의사 평가 세트에 대한 환각 감지 작업에서 72%의 정확도를 달성했으며, GPT-3.5, Llama2 등 다양한 LLM과 alt가 개발한 경량 대형 언어 모델인 LHTM-OPT에 대한 환각 채점이 가능하다.

자동 환각 점수 평가 엔진은 LLM 출력 평가의 일관성을 강조하기 위해, 동일한 입력 데이터를 기반으로 여러 생성 프로세스를 수행하고 결과를 비교한다. 이를 통해 생성된 콘텐츠의 불일치와 비일관성을 식별하고, 학습 데이터나 사실에 근거하지 않은 부정확한 생성, 즉 환각이 발생했는지에 대한 확률적 평가를 수행한다.
요네쿠라 가즈타카 알트 CEO는 "자동 환각 점수 평가 엔진은 현재 alt 개발자 API 서비스를 통해 이용할 수 있다. 이 기술이 LLM의 신뢰성을 높이고 응용 분야를 확대하는 데 기여할 것으로 기대한다."고 밝혔다.
관련기사
- 생성AI에 대한 기업과 일반대중의 인식 차이 뚜렷
- 기업용 생성AI 환각 방지 실시간 방화벽 '갈릴레오 프로텍트'
- AI 환각 줄이고 데이터 품질 높이는 문서 AI 학습 도구 '사이냅 도큐애널라이저' 출시
- LLM 환각 해결한 ‘신뢰할 수 있는 언어 모델’
- [기고] 섀도 생성AI를 피하는 방법
- 진화하는 AI 규정 준수하는 대화형AI
- 알리바바 클라우드, LLM 신제품 ‘큐원2.5’ 및 플랫폼 업데이트 발표
- 개발이 더욱 쉬워지는 AI 기반 문서 솔루션
- 생성AI가 비즈니스에 미치는 영향 평가법
- 유명인의 디지털 클론과 실시간 소통 ‘이제 외롭지 않아’
- SW-HW 공동 설계 온디바이스 LLM 추론 가속기 IP
