추천 시스템 기술은 음악 스트리밍, 이커머스, 소셜 네트워크, 숏폼 영상 플랫폼 등 다양한 산업의 개인화 경험을 좌우하는 핵심 요소다. 그러나 이 분야의 연구는 여전히 제한된 규모의 공개 데이터셋에 머물러 있어 상업 환경 수준의 모델 개발이 어렵다는 한계가 있다.
특히 추천 알고리듬은 수십억 건의 사용자 행동 데이터를 기반으로 학습되어야 효과적인데, 주요 기업들이 개인정보 보호 문제로 대규모 데이터를 외부에 공유하지 않으면서 연구와 산업 간의 기술 격차가 점점 커지고 있다.
현재 널리 쓰이는 스포티파이(Spotify)의 ‘밀리언 플레이리스트(Million Playlists)’, 넷플릭스(Netflix)의 ‘넷플릭스 프라이즈(Netflix Prize)’ 데이터셋은 규모나 시간 정보의 정밀도가 부족해 실제 환경을 반영하기 어렵다는 평가를 받고 있다. 이처럼 추천 시스템의 성능 향상을 위한 충분한 학습 데이터가 절대적으로 부족한 상황이다.
음악 스트리밍 플랫폼 기업 얀덱스(Yandex)가 추천 시스템 연구용 초대형 데이터셋 ‘얌다(Yambda)’를 공개했다.

추천 시스템 연구의 병목, 데이터 격차 해소하는 얌다
얌다는 얀덱스가 운영하는 음악 스트리밍 플랫폼 얀덱스 뮤직(Yandex Music)에서 수집한 총 47억 9천만 건의 익명화된 사용자 상호작용 데이터를 포함한 추천 시스템 전용 데이터셋이다. 이 데이터셋은 2024년 약 10개월간 1백만 명 이상의 사용자와 939만 개의 트랙에 대한 데이터를 기반으로 구축됐다.
추천 알고리듬 학습과 테스트를 위한 벤치마크 데이터셋으로 활용 가능하며, 연구자와 개발자가 새로운 알고리듬을 기존 기준 모델들과 비교 평가할 수 있도록 모스트팝(MostPop), 디케이팝(DecayPop), 아이템KNN(ItemKNN), iALS, BPR), 산사(SANSA), 새스렉(SASRec)등 대표적인 베이스라인 알고리듬 구현 예시도 함께 제공된다.
또한 모든 상호작용 이벤트에 정확한 타임스탬프를 부여해 시간 순서 기반의 분석이 가능하며, GTS(Global Temporal Split) 방식의 데이터 분할을 적용해 훈련 세트와 테스트 세트 간의 시간 종속성을 유지할 수 있도록 구성했다.
이는 사용자별로 마지막 상호작용 하나를 테스트용으로 따로 떼어내고, 나머지를 학습에 사용하는 ‘리브-원-아웃(Leave-One-Out)’ 방식이 마지막 긍정 상호작용만 제거해 시간적 연결성을 단절시키는 점과 비교해 현실적인 추천 모델 평가 환경을 제공한다.
산업과 학계 모두 활용 가능한 벤치마크 데이터
얌다는 단순한 이벤트 로그 이상의 정보를 포함한다. 각 오디오 트랙에 대한 딥러닝 기반 임베딩 벡터가 포함되어 있어, 콘텐츠 자체의 특징을 추천 알고리듬에 반영할 수 있다. 또한 사용자가 추천이 아닌 자발적으로 콘텐츠를 탐색했는지 여부를 구분할 수 있어, 콘텐츠 소비 경로에 따른 행동 차이 분석이 가능하다.
데이터 형식은 아파치 파케이(Parquet) 포맷으로 제공되며, 스파크(Spark), 하둡(Hadoop) 등 분산처리 시스템과 판다스(Pandas), 폴라스(Polars) 등의 분석 라이브러리와 호환된다. 이 데이터는 약 5억 건, 5천만 건으로도 축소된 버전이 함께 제공되어 다양한 연구 환경과 컴퓨팅 자원 조건에 맞게 활용할 수 있다.
얀덱스 니콜라이 사부슈킨(Nikolai Savushkin) 추천 시스템 총괄은 “추천 시스템은 본질적으로 민감한 데이터를 기반으로 하며, 기업은 이를 공유하기 위해 철저한 익명화 작업을 거쳐야 한다.”라며 “얌다는 혁신 가설을 시험하려는 연구자와 스마트한 추천 시스템을 구축하려는 기업 모두에게 실질적인 도구가 될 것”이라고 말했다.
관련기사
- 오픈 소스 AI 모델 ‘잠바 1.6’...장문 처리 성능 속도·정확도·보안↑
- LG CNS, 금융 산업 특화 LLM 평가 도구 출시
- 아하앤컴퍼니, 카카오헬스케어에 의료 AI 학습용 의료 데이터셋 공급
- 결제 관리 간소화 AI 솔루션...결제 전환·사기 예방율↑
- 정부 구축·지원 "AI 보안 위협에 대응하는 AI 데이터 셋"...글로벌 보안 경쟁력↑
- 샌즈랩, 45억 규모 KISA ‘사이버보안 AI 데이터셋’ 사업 수주
- 한국 ‘AI 번역’ 서비스, 사우디 진출
- AI 기반 개인정보 보호 자동화, 지능형 컴플라이언스로 가는 지름길
- 이커머스, 한국 경제의 디지털 성장축으로 부상
- AI 시대, 전략적 개인정보 보호가 경쟁력 핵심
- 산업 자동화·데이터 인텔리전스 핵심 ‘딥러닝 기술’ 연평균 37.8% 초고속 성장세
