금융 산업은 데이터 보안, 규제 준수, 전문적 지식 활용이 동시에 요구되는 특수한 환경이다. 생성AI의 확산과 함께 금융기관들은 업무 자동화, 리스크 관리, 고객 맞춤형 서비스 혁신을 위해 대규모 언어모델(LLM) 도입을 적극 추진하고 있다. 그러나 범용적 모델 평가만으로는 실제 금융 업무에서 요구되는 성능과 신뢰성을 충분히 검증하기 어렵다는 문제가 지적돼 왔다. 이에 따라 금융 도메인 특화 평가 체계의 필요성이 높아졌다.

머신러닝 개발 플랫폼 기업 웨이츠앤바이시스(Weights & Biases, 이하 W&B)는 LG CNS와 협력해 금융 특화 LLM 성능 평가 리더보드 ‘황소(Hwangso)’를 공식 출시했다.

황소 리더보드, 금융 LLM 표준 지향

황소 리더보드는 기존의 범용 평가에서 벗어나 금융 규제, 보안, 최신 금융 상품 이해도를 포함한 심층적 평가 기준을 제시한다. 평가 항목은 금융 지식을 기반으로 한 논리적 추론, 요약, 도메인 지식, 지시사항 준수 등으로 구성된다.

황소 리더보드는 금융 특화 성능 외에도 영문·한글 기반 지식 추론 능력과 논리적 사고 등 범용 성능 평가를 제공한다. 또한 모델 파라미터 크기별 성능 비교 기능을 지원해 정확한 검증을 가능하게 한다. 기존의 비공개 리더보드와 달리 평가 기준과 점수를 투명하게 공개해 AI 생태계 발전에 기여하는 것도 특징이다. 현재 글로벌 프론티어 모델 및 국내 연구소 활용 모델 등 22개 이상의 LLM을 평가하며, 이후 지속적으로 업데이트될 예정이다.

LG CNS는 금융 사업 노하우와 AX 기술력을 바탕으로 황소 리더보드의 평가 항목 개발과 데이터셋 구축을 주도했다. 이를 통해 금융 기업들이 LLM 도입 과정에서 시행착오를 줄이고 효율적인 AI 전환을 가속화할 수 있도록 지원한다. 황소 리더보드는 LG CNS가 최근 공개한 기업용 에이전틱(Agentic) AI 플랫폼에도 탑재돼 고객에게 제공된다.

W&B의 로빈 보돌리(Robin Bordoli) CRO는 “황소 리더보드는 W&B의 실험 관리 및 평가 기술과 LG CNS의 금융 전문성이 결합된 결과물”이라며 “금융 기업 고객들이 가장 적합한 모델을 신속히 파악하고 혁신을 이끌 수 있도록 지원할 것”이라고 말했다. 황소 리더보드는 9월 29일부터 W&B 플랫폼에서 정식 운영되며, 금융업계와 개발자 커뮤니티 모두가 활용 가능한 새로운 표준으로 자리매김할 전망이다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지