대규모 말뭉치로 훈련된 LLM(Large Language Model)은 다양한 작업에서 인상적인 능력을 보여주며 영어를 포함해 다양한 언어에 적용되고 있다. 하지만 그 평가 방법론에 대한 관심은 비교적 적은데, 현재 다국어 벤치마크는 주로 영어로 제작된 벤치마크를 번역해서 사용하고 있어 각국의 독특한 문화적 및 언어적 뉘앙스를 포착하는 능력이 제한된다.

금융 생성AI 전문 기업 원라인에이아이(대표 정한얼)가 이탈리아 토리노에서 열리는 '2024 국제 컴퓨터 언어학, 언어 자원 및 평가 공동 국제 학회(LREC-COLING 2024)'에 참가해 한글 언어모델 평가에 특화된 데이터세트 및 연구결과를 발표한다고 15일 전했다.

이전 한글 벤치마크가 자연어 이해나 추론 능력을 평가하는 데 중점을 둔 반면, 이번 학회에서 발표하는 한국어 벤치마크 데이터세트는 지식의 깊이에 중점을 두었다. 이 벤치마크는 외래어(LW), 표준 명칭(SN), 희귀어(RW), 일반 지식(GK), 역사(HI), 독해력(RC)과 같은 여섯 개의 하위 작업을 포함한다.

특히 한글 오픈소스 언어모델 'Polyglot-Ko' 모델이 메타의 LLaMA-2를 비롯해 허깅페이스의 UMT5보다 여섯 개의 하위 작업에서 모두 높은 성능을 보였다. 또한 모델의 크기와 성능 간의 상관관계를 규명하는 실험을 통해 언어모델의 성능은 모델의 크기를 넘어서 더 넓은 범위의 요소에 의해 영향을 받는다는 것을 밝혔다.

정한얼 원라인에이아이 대표는 "작년 Fin-NLP 발표 이후로 빠르게 변화하는 생성AI 분야에서 지속적으로 연구 결과를 발표하는 것은 우리의 핵심 경쟁우위 중 하나"라며 "3월 중 이러한 기술력이 응축된 금융 특화 생성형 플래그십 모델을 공개할 예정"이라고 말했다.

한편 원라인에이아이는 앞서 대규모 한글 평가 데이터세트 KMMLU(Measuring Massive Multitask Language Understanding)를 발표한 바 있다.

 

[알림] GTT KOREA와 전자신문인터넷이 오는 3월 21일 인터컨티넨탈 서울 코엑스에서 공동으로 주최하는 ‘Data Insight & Security Summit(DISS) 2024’에서는 “AI 트랜스포메이션, 데이터 이노베이션”을 주제로 데이터 산업을 이끌고 있는 글로벌 리더들이 AI 기반 데이터 활용과 전략 수립에 난항을 겪고 있는 기업들에게 효과적인 데이터 관리와 인사이트, 강력한 데이터 보안 전략을 제시한다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지