보상 모델 기술은 생성AI와 대규모 언어 모델의 정밀한 학습과 안전한 응답 제어를 위해 핵심적인 역할을 수행한다. 특히 인간 피드백을 반영한 강화 학습(RLHF) 과정에서 모델의 의사결정 능력과 가치 정렬을 보장하기 위한 기준이 되며, 데이터 품질과 신뢰성 확보 측면에서도 보상 모델의 정교함은 필수적이다.

그러나 기존 보상 모델은 과적합과 범용성 부족, 부정확한 데이터 기반이라는 한계를 안고 있었으며, 고도화된 사용자 요구와 복잡한 사용 시나리오에 대응하기 위한 혁신적 전환이 요구되고 있다. 이러한 배경 속에서 새로운 데이터 수집 체계와 확장성 높은 모델 설계를 갖춘 고성능 보상 모델은 생성AI 시스템의 실용화와 안전성을 동시에 확보하는 데 중요한 기술 인프라로 떠오르고 있다.

보상 모델 오픈소스 및 생성AI 전문 기업 스카이워크(Skywork)가 새로운 세대의 오픈소스 보상 모델 ‘스카이워크-리워드-V2(Skywork-Reward-V2)’ 시리즈를 공개했다. 이번 모델은 다양한 크기의 모델 8종으로 구성되며, 기존 세대 대비 성능, 확장성, 데이터 품질 측면에서 대폭 향상된 것이 특징이다.

2단계 인간-기계 협업 구조로 대규모 하이브리드 선호도 데이터셋 구축

스카이워크는 이번 보상 모델 개발을 위해 총 4천만 개의 선호도 쌍을 포함한 대규모 하이브리드 데이터셋 ‘스카이워크 싱프리프-40M(Skywork-SynPref-40M)’을 구축했다. 핵심은 “인간-기계 협업, 2단계 반복” 데이터 선택 파이프라인에 있다. 1단계에서는 고품질의 소규모 골드 스탠다드 데이터를 인간 검토자 주도로 생성하고, 이후 대규모 언어 모델을 통해 실버 스탠다드 데이터를 자동 생성해 데이터 볼륨을 확장했다. 2단계에서는 훈련된 보상 모델을 활용해 신뢰도 기반 자동 필터링을 수행함으로써 최종적으로 2,600만 개의 고품질 데이터를 확보했다.

이러한 구조는 단순한 데이터 양의 증가를 넘어 데이터 품질을 정밀하게 통제하면서도 인간 리소스를 최소화할 수 있는 방식을 제시한다. 스카이워크는 데이터 품질이 모델 성능 향상에 결정적이라는 점을 강조하며, 4천만 개 중 단 1.8%만 사용해도 700억 파라미터 SOTA 모델보다 뛰어난 성능을 발휘한 사례를 제시했다.

스카이워크-리워드-V2, 7대 벤치마크에서 SOTA 성능 달성

스카이워크-리워드-V2 시리즈는 큐엔3 및 LLaMA3 기반으로 6억에서 80억까지의 파라미터 규모로 구성되어 있으며, 리워드벤치(RewardBenc)h v1/v2, RM-Bench, RMB 등 총 7개의 권위 있는 평가 벤치마크에서 종합적인 최고 성능(SOTA)을 달성했다. 특히, 가장 작은 모델인 0.6B 규모조차 이전 세대 27B 모델에 필적하는 성능을 기록했으며, 8B 모델은 업계 최고 수준의 성능을 보였다.

모델은 Best-of-N(BoN) 처리, 편향 저항력, 명령어 이해, 사실성 평가 등 다차원 평가에서도 강력한 일반화 성능을 입증했으며, 과적합 없이 다양한 시나리오에 안정적으로 대응할 수 있는 점이 장점이다.

스카이워크는 이번 발표를 통해 보상 모델이 단순한 평가 도구를 넘어 AI 인프라의 중심 축으로 진화하고 있음을 강조했다. 보상 모델은 생성AI의 행동 판단과 가치 정렬을 위한 핵심 역할을 하며, 향후에는 에이전트 기반 학습, 수학 및 프로그래밍 작업, 일반 추론을 포함한 다양한 RLVR 시나리오에 활용될 것으로 예상된다. 스카이워크는 향후 대체 학습 기법 및 보상 형성 전략 연구까지 영역을 확장할 계획이다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지