금융 생성AI 지원 기업 원라인에이아이(대표 정한얼)가 추론 특화 한국어 AI 모델 'OLAF v2'를 공개했다.

이 모델은 오픈AI(OpenAI) o1의 ‘생각 프로세스(thought process)’와 ‘테스트 시간 스케일링(test-time scaling)’을 기반으로 개발됐다. 생각 프로세스는 기존의 생각의 사슬(Chain-of-Thought)과 유사한 방식으로 작동하는 AI의 추론 알고리듬으로, 모델이 주어진 문제를 스스로 이해하고 해결 방안을 제시하는 사고 과정을 생성한다.

이를 통해 복잡한 추론이 필요한 문제도 체계적으로 해결할 수 있다. 또한 이 과정에서 오답을 발견해 스스로 고치는 등 자신의 실수를 학습해 답변의 신뢰도를 높인다.

테스트 시간 스케일링은 AI 모델이 주어진 시간 내에 얼마나 효율적으로 작업을 수행하는 지 평가하는 방법으로, 모델이 더 많은 계산 자원을 사용해 복잡한 문제에 대해 스스로 생각하며 깊이 있는 추론을 유도하는 방법이다.

모델이 다양한 전략과 시나리오를 시뮬레이션하여 최적의 솔루션에 도달하도록 도우며, 대표적으로 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS) 등의 방법이 활용된다.

알리바바(Alibaba)의 QwQ와 딥시크(DeepSeek)의 r1이 위 방식으로 시장에 성능을 입증한 바 있다.

한편, OLAF v2는 14B와 1.5B 두 가지 버전으로 출시됐다. 두 버전 모두 STEM(Science, Technology, Engineering, Mathematics) 문제를 해결하기 위한 추론 특화 모드를 지원한다.

32K의 context length를 지원하여 RAG 및 도구 기반 애플리케이션에 적합하도록 제작됐으며, 모델 학습 과정에서는 반복적인 데이터 생성과 부적절한 질문에 대한 거부 메커니즘에 중점을 두어 환각을 줄이고 신뢰도를 높였다.

OLAF v2의 추론 능력을 평가하기 위해, 최근 원라인에이아이에서 공개한 한국 최초 수학 추론 벤치마크인 HRM8K의 서브셋인 GSM8K와 Omni-MATH 벤치마크에서 평가했다.

OLAF v2와 GPT-4o의 Omni-MATH 점수 비교 표(자료제공=원라인에이아이)
OLAF v2와 GPT-4o의 Omni-MATH 점수 비교 표(자료제공=원라인에이아이)

초중등 수학 문제 모음인 GSM8K에서 91.96점, 올림피아드급 문제 모음인 Omni-MATH에서 36.20점을 기록했다. 이는 GPT-4o(GSM8K 91.21점, Omni-MATH 30.75점)보다 높은 점수다.

원라인에이아이 정한얼 대표는 “OLAF v2가 보여준 뛰어난 추론 능력은 복잡한 금융 데이터 분석과 리스크 평가에 특히 강점을 보일 것”이라며 “현재 국내 주요 금융사들과 진행 중인 프로젝트를 통해 금융권 특화 서비스로 발전시켜 나갈 계획”이라고 밝혔다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지