AI 채택이 증가하고 있으나, 채택된 AI에 대한 실시간 평가 없이는 조직이 다음과 같은 문제에 직면한다. 직원 프롬프트의 8.5%에 민감한 데이터가 포함되어 있으며(Harmonic Security), AI 모델은 지속적인 모니터링 없이는 시간이 지남에 따라 성능이 저하된다. 또한 느린 반복 주기(iteration cycles)는 모델 성능 저하로 이어질 수 있다.
글로벌 AI 개발 기업 아서(Arthur)가 생성AI 및 기존 ML 모델을 모니터링, 디버깅 및 개선하는 데 도움이 되도록 설계된 오픈 소스 실시간 AI 평가 엔진 ‘아서 엔진(Arthur Engine)’을 출시했다.
아서 엔진은 자체 환경 내에서 즉각적인 가시성, 실시간 가드레일 및 즉석 모델 최적화를 제공하여 이러한 문제를 해결한다.

기존 AI 모니터링 도구와 달리 아서 엔진은 로컬에서 실행되어 데이터 주권을 보존하고 규정 준수 위험을 제거한다.
실시간 AI 평가로 프로덕션에 영향을 미치기 전에 즉시 오류를 감지하며, 능동적 가드레일을 통해 실시간으로 개입하여 환각 및 잘못된 출력을 방지한다. 또한 맞춤형 지표로 특정 AI 사용 사례에 맞게 평가를 조정한다.
한편 모든 데이터를 인프라 내부에 보관하며, GPT, 클로드, 제미나이, 오픈 웨이트 모델 및 기존 ML을 지원한다. 특히, 블랙박스 모니터링과 타사 종속성이 없으며, 무료로 제공된다.
아서의 리드 AI PM 애슐리 나이더(Ashley Nader) “AI는 빠르게 움직이고 있으며, 우리는 올바른 방향으로 움직이는지 확인해야 한다.”라며 “아서 엔진을 오픈 소스화함으로써 전 세계 개발자, 연구원 및 구축자에게 강력한 AI 평가 도구를 제공한다.”라고 말했다.
관련기사
- 힐셔, 산업용 이더넷 단순화하는 싱글페어 이더넷 평가 보드 출시
- 생성AI ROI 평가 및 위험 거버넌스 관리 솔루션...ROI 극대화·위험 최소화
- 원클릭으로 생성AI 위험 평가·처리하는 ‘런타임 기반 탐지 및 평가 시스템’
- AI 탑재 ‘평가 코파일럿’...기존 데이터 활용해 업무 속도·신뢰성↑
- 멀티모달 AI 평가 도구 'MLLM 심판'... 환각 감지·객체 검증·유효성 테스트 지원
- LG CNS, 금융 산업 특화 LLM 평가 도구 출시
- AI 편향 측정 ‘패리티 벤치마크’…8가지 영역 520개 이상 질문으로 평가
- 기업들이 주목하는 AI 환각·편향 제거 ‘머신 언러닝’ 기술
- 신뢰 기반 시장 정보 분석 자동화 ‘에이전트형 AI’...의사결정 정확도·속도↑
- 대규모 하이브리드 데이터 기반 보상 모델, 기업 AI 활용도 극대화
- 인간 수준 사회적 인지 갖춘 AI, 의료·마케팅·보안 혁신 이끈다
