대규모 말뭉치로 훈련된 LLM(Large Language Model)은 다양한 작업에서 인상적인 능력을 보여주며 영어를 포함해 다양한 언어에 적용되고 있다. 하지만 그 평가 방법론에 대한 관심은 비교적 적은데, 현재 다국어 벤치마크는 주로 영어로 제작된 벤치마크를 번역해서 사용하고 있어 각국의 독특한 문화적 및 언어적 뉘앙스를 포착하는 능력이 제한된다.
금융 생성AI 전문 기업 원라인에이아이(대표 정한얼)가 이탈리아 토리노에서 열리는 '2024 국제 컴퓨터 언어학, 언어 자원 및 평가 공동 국제 학회(LREC-COLING 2024)'에 참가해 한글 언어모델 평가에 특화된 데이터세트 및 연구결과를 발표한다고 15일 전했다.

이전 한글 벤치마크가 자연어 이해나 추론 능력을 평가하는 데 중점을 둔 반면, 이번 학회에서 발표하는 한국어 벤치마크 데이터세트는 지식의 깊이에 중점을 두었다. 이 벤치마크는 외래어(LW), 표준 명칭(SN), 희귀어(RW), 일반 지식(GK), 역사(HI), 독해력(RC)과 같은 여섯 개의 하위 작업을 포함한다.
특히 한글 오픈소스 언어모델 'Polyglot-Ko' 모델이 메타의 LLaMA-2를 비롯해 허깅페이스의 UMT5보다 여섯 개의 하위 작업에서 모두 높은 성능을 보였다. 또한 모델의 크기와 성능 간의 상관관계를 규명하는 실험을 통해 언어모델의 성능은 모델의 크기를 넘어서 더 넓은 범위의 요소에 의해 영향을 받는다는 것을 밝혔다.
정한얼 원라인에이아이 대표는 "작년 Fin-NLP 발표 이후로 빠르게 변화하는 생성AI 분야에서 지속적으로 연구 결과를 발표하는 것은 우리의 핵심 경쟁우위 중 하나"라며 "3월 중 이러한 기술력이 응축된 금융 특화 생성형 플래그십 모델을 공개할 예정"이라고 말했다.
한편 원라인에이아이는 앞서 대규모 한글 평가 데이터세트 KMMLU(Measuring Massive Multitask Language Understanding)를 발표한 바 있다.
관련기사
- 솔트룩스 AI ‘루시아’ 오픈 LLM 리더보드 1위
- 스노우플레이크-미스트랄 AI, 5개 국어 유창한 LLM 모델 지원
- 파수, 기업용 sLLM ‘엔터프라이즈 LLM’ 출시
- 클라우드플레어, LLM 남용과 공격 식별 ‘AI용 방화벽’ 출시
- LLM 취약점 해결해 개인정보 보호하는 안티 AI 도구
- [기고] LLM 교육 자료의 저작권이 유지될까?
- [기고] 신경망에서 변환기까지, 머신 러닝의 진화
- 오라클, LLM모델 지원 'OCI 생성AI 서비스' 출시
- [기고] 대형 언어 모델의 역사
- 국산 LLM 기술, 글로벌 평가 사이트 '오픈 LLM 리더보드'서 1위
- AI 편향성·환각 줄이는 'LLM 강화학습용 데이터 구축 플랫폼'
- AWS 기반 SLM ‘솔라 미니’, 생성AI 앱 구축·확장 지원
- AI 학습으로 ‘전문성’ 개선, MTPE 작업으로 ‘번역 품질’ 향상
- LLM 이해·생성 능력 평가 ‘호랑이 한국어 LLM 리더보드’
- W&B, GPT-4 기반 한국어 문서 발표
- 지식 자산화 솔루션과 sLLM의 결합 ‘M-LLM’
- 번역 불량 없이 명확한 의사소통 지원하는 ‘AI 번역 연구소’
- 엔비디아에서 라마3 최적화 하기
