에이전트 기반 RAG 시스템의 AI 구현은 더욱 복잡해지고 있다. 정교한 워크플로, 증가하는 보안 및 관찰 가능성 문제와 임박한 규제로 인해 조직들은 점점 더 임시방편적인 방식으로 맞춤형 RAG 시스템을 즉석에서 배포하고 있다.

특히 에이전트 기술이 부상하면서 AI 시스템이 빠르게 복잡해지고 RAG 기술이 계속 발전함에 따라 조직은 올바른 선택을 하는 데 도움이 되는 개방적이고 확장할 수 있는 AI 평가 프레임워크가 필요하다. 이를 통해 조직은 자체 데이터를 활용하고 자체 메트릭을 추가해 기존 시스템을 새로운 대안 옵션과 비교해 측정할 수 있다.

엔터프라이즈 및 AI 기반 에이전트용 RAG 플랫폼 벡타라(Vectara)가 기업이 정확하고 신뢰할 수 있는 AI 시스템을 구축 및 배포할 수 있도록 지원하는 RAG용 오픈 소스 평가 프레임워크 ‘오픈 RAG 이벌(Open RAG Eval)’을 출시를 발표했다.

이 프레임워크는 벡타라 자체 생성AI 플랫폼 또는 기타 맞춤형 RAG 솔루션을 포함한 모든 RAG 파이프라인을 평가하도록 설계됐다.

엔터프라이즈 RAG 스택의 구성 요소 및 구성에 따라 사용자 프롬프트에 제공되는 응답의 정확성과 유용성을 판단하며, 검색 메트릭과 생성 메트릭이라는 두 가지 주요 메트릭 범주에 따라 응답 품질을 평가한다.

워털루 대학교 연구진과 공동으로 개발된 이 프레임워크를 통해 엔터프라이즈 사용자는 RAG 시스템의 각 구성 요소 및 구성에 대한 응답 품질을 평가해 AI 에이전트 및 기타 도구를 최적화할 수 있다.

사용자는 플랫폼의 이 첫 번째 반복을 활용해 이러한 시스템 개발자에게 선택된 메트릭에 따라 RAG 파이프라인이 어떻게 작동하는지 알릴 수 있다. 이러한 메트릭 범주를 검사함으로써 평가자는 개별 점수 또는 집계 점수로 시스템을 비교할 수 있다.

예를 들어 낮은 관련성 점수는 사용자가 시스템의 검색 파이프라인을 업그레이드하거나 재구성해야 하거나 데이터셋에 관련 정보가 없음을 나타낼 수 있다.

또한 예상보다 낮은 생성 점수는 생성된 응답에 환각이 포함된 경우와 같이 시스템이 더 강력한 LLM을 사용해야 하거나 사용자가 RAG 프롬프트를 업데이트해야 함을 의미할 수 있다.

이를 기반으로 오픈 RAG 이벌은 AI 팀이 ▲고정 토큰 청킹 또는 의미론적 청킹 사용 여부 ▲하이브리드 검색 또는 벡터 검색 사용 여부 및 하이브리드 검색 배포에서 람다에 사용할 값 ▲사용할 LLM 및 RAG 프롬프트 최적화 방법 ▲환각 감지 및 수정에 사용할 임계값 등 실제 배포 및 구성 문제를 해결을 지원한다.

벡타의 CEO 암르 아와달라(Amr Awadallah)는 "복잡해지는 RAG 시스템 환경에서 기업이 성능과 품질을 일관되게 평가할 수 있도록 과학적이고 체계적인 방안을 제공하는 것이 중요하다."라고 강조했다.

워털루대 지미 린(Jimmy Lin) 석좌교수는 “AI 에이전트는 기업 운영과 미래 전략에서 핵심적인 역할을 한다. 정확하고 반복 가능한 평가 방식이 있어야만 기술의 잠재력을 실현할 수 있다.”라고 밝혔다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지