초거대 언어 모델 학습 환경에서는 컴퓨팅 자원뿐 아니라 대규모 데이터를 안정적으로 공급·관리하는 구조가 필수적이다. 국내에서도 소버린 AI 구현을 위해 스토리지·오케스트레이션·GPU 자원을 통합한 고성능 데이터·연산 기반을 갖추기 위한 노력이 이어지고 있다.
AI 운영 시스템 기업 배스트 데이터(VAST Data)가 AI 인프라 관리 플랫폼 ‘백엔드닷AI(Backend.AI)’ 개발사 래블업(Lablup)과 국가 AI 컨소시엄이 대규모 언어 모델을 국내 인프라에서 학습·배포할 수 있도록 고성능·확장형 데이터 기반을 구축하는 전략적 협업을 21일 발표했다.
고처리량·고신뢰 데이터 인프라 결합
백엔드닷AI는 GPU·CPU 기반 모델 학습·추론 환경을 통합 제공하는 플랫폼으로, 이번 통합으로 ‘배스트 AI OS’의 고성능 데이터 처리 기능을 직접 활용하게 됐다. 래블업은 전통적 스토리지로는 초거대 모델 학습에 필요한 처리량과 동시성을 확보하기 어렵다고 판단, 배스트 데이터를 선택해 데이터 레이어를 현대화했다.
이 기반에서 고객은 학습 데이터·모델 체크포인트·아티팩트를 높은 처리량과 복원력으로 관리하며 모델 개발부터 서비스 전 주기에서 끊김 없는 데이터 흐름을 확보한다.
SK텔레콤의 소버린 AI 클러스터에서 구동되는 통합 환경은 GPU 전반에 걸쳐 모델 학습을 자동화·가속하며, 연구기관들이 학습·추론을 통합적으로 수행할 수 있는 AI 컴퓨팅 환경을 제공한다.
단일 네임스페이스·멀티테넌트 확장성 확보
배스트의 DASE(Disaggregated Shared-Everything) 아키텍처를 기반으로 백엔드닷AI는 학습·검증·배포 전 과정을 단일 네임스페이스로 통합한다. 연구자들은 체크포인트·데이터셋·결과물을 중복 없이 빠르게 공유할 수 있어 컨소시엄 내 협업 효율이 향상된다.
배스트 데이터엔진과 데이터스페이스(DataSpace) 기반으로 GPU 클러스터 전체의 데이터·연산 자원 관리를 통합한다. 쿼터 기반 자원 배분과 백엔드닷AI의 사용자 권한 제어가 연동돼 테넌트 간 격리와 일관된 성능을 보장한다. 정부·학계·기업 사용자는 연산·스토리지를 독립적으로 확장할 수 있으며 안정적 품질을 확보한다.
소버린 AI 프로젝트가 학습에서 서비스 단계로 확장되면서 통합 환경은 차세대 추론 및 에이전틱 AI 워크로드를 지원하는 기반이 된다. 배스트 데이터엔진은 대규모 데이터셋에 대한 실시간 오케스트레이션을 제공하며, 지속적 학습·적응·서비스가 가능한 지능형 시스템으로 확장할 수 있게 한다.
배스트 AI OS는 래블업의 자체 인프라에서도 모델 개발·테스트·배포를 지원하며 실시간 모델 웨이트 교체와 무중단 운영을 가능하게 한다. 양사는 초기 지연 문제를 공동 엔지니어링으로 해결해 고처리량·고확장성 연구 환경을 구축했다.
래블업 신정규 대표는 “AI 주권성과 데이터 보안을 보장하는 기술적 시너지를 입증한 사례”라고 말했다.
배스트 데이터 알론 호레브(Alon Horev) CTO는 “배스트 AI OS는 컴퓨트 오케스트레이션과 데이터 인텔리전스를 통합해 병목을 제거하며 국가가 AI 혁신을 스스로 소유하고 가속할 수 있는 단일 패브릭을 제공한다.”라고 말했다.

