LLM이 에이전트 역할을 수행하기 위해서는 도메인 별 지식과 문제 해결을 위한 툴 선택 및 활용 능력, 대화의 맥락 이해, 수집된 정보 활용 등 다양한 능력이 필요하다.

LLM 올인원 솔루션 기업 올거나이즈(대표 이창수)가 LLM의 에이전트 역량을 평가하는 ‘올인원 벤치마크(All-in-One Benchmark)’를 공개한다고 3일 밝혔다. 

올인원 벤치마크는 LLM의 에이전트 성능을 종합 평가하는 플랫폼으로,  LLM 모델 별로 비교 분석할 수 있다. 올거나이즈의 자체 소형언어모델(sLLM)과 ‘챗지피티(ChatGPT)’, ‘엑사원(EXAONE)’, ‘큐원(Qwen)’, ‘딥시크(DeepSeek)’ 등 12개의 LLM을 평가할 수 있으며, 결과는 대시보드 형태로 제공된다. 

올인원 벤치마크의 대시보드
올인원 벤치마크의 대시보드

특히 에이전트 역할뿐 아니라 일반적인 언어 이해, 지식수준, 명령 준수 등 LLM의 성능을 종합적으로 평가할 수 있다. 이를 통해 기업은 가장 적합한 LLM을 선택할 수 있다.  

에이전트 종합적 성능 평가는 ▲ 스스로 외부 도구를 호출하는 ‘툴 콜링(tool calling)’ 능력 평가는 ‘BFCL’ ▲한국어 환경에서의 툴 콜링 능력 평가는 ‘펑션챗벤치(FunctionChatBench)’ ▲ 유통, 항공 등 실제 산업 현장에서 LLM의 문제 해결 능력을 평가하는 ‘타우벤치(TauBench)’ 등 3가지가 활용된다.

새로운 LLM의 성능도 확인할 수 있다. 새로 나온 LLM 이름을 입력하면 플랫폼이 모델의 API를 자동으로 구현해 평가한다. 이를 통해 LLM이 새로 개발될 때마다 각 벤치마크의 개별 코드를 실행해 동일 작업을 수차례 진행하는 기존 업무의 비효율성을 해결할 수 있다. 

특히 대규모 데이터셋과 복잡한 벤치마크에서도 평가할 수 있어 평가 시간을 단축할 수 있다. 동일 모델 평가 결과, 기존 벤치마크의 경우 약 1시간 30분, 올거나이즈의 플랫폼은 약 20분이 소요됐다.

올거나이즈는 기업의 AI 모델 도입에 도움이 될 수 있는 LLM 평가 플랫폼을 지속적으로 고도화할 예정이다. 

올거나이즈 이창수 대표는 “에이전트 역할을 정확히 수행하는 LLM 개발을 위해, 기존 LLM의 에이전트 성능을 평가하고 향상하는 학습 방법을 연구하고 있다.”라고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지