대규모 언어모델(LLM)은 활용성이 뛰어난 반면 여러 문제점이 있다. 초거대 모델의 추론 및 파인튜닝에는 대규모 GPU 클러스터와 복잡한 인프라가 필요해 비용과 기술적 장벽이 높았다. 특히 실시간 추론과 긴 컨텍스트 처리가 필요한 경우, 모델의 메모리 요구 사항과 지연시간이 문제였다. 기업들은 이러한 제약으로 인해 강력한 AI 애플리케이션을 구축하고 배포하는 데 어려움을 겪었고, AI 도입의 효율성 및 확장성이 제한되었다.

글로벌 AI 데이터 클라우드 기업 스노우플레이크(Snowflake)는 메타(Meta)와의 협력을 통해 라마 3.1 405B 모델을 스노우플레이크 코텍스 AI(Snowflake Cortex AI)에서 호스팅 및 최적화한다고 9일 발표했다.

이번 협업은 기업들이 강력한 AI 애플리케이션을 대규모로 손쉽게 구축하고 활용할 수 있도록 지원하며, 스노우플레이크 AI 리서치팀이 오픈소스 커뮤니티와 협력하여 초거대 LLM 추론 및 파인튜닝 시스템 스택을 출시한 결과이다.

스노우플레이크와 메타 간의 협력은 AI 모델 호스팅 및 최적화의 필요성을 반영한다. 메타의 최신 대규모언어모델(LLM)을 활용한 파인튜닝과 배포는 복잡한 인프라와 대규모 GPU 자원이 필요한데, 스노우플레이크의 고급 병렬화 및 메모리 최적화 기술을 통해 이러한 문제를 해결한다. 이로 인해 AI 애플리케이션의 비용 효율성 및 확장성을 강화하여 보다 넓은 기업들이 안전하게 AI를 도입할 수 있도록 돕는다.

스노우플레이크는 오픈소스 추론 및 파인튜닝 솔루션을 통해 다중 언어 오픈소스 LLM 라마 3.1 405B를 지원하며, 128K 컨텍스트 윈도우와 실시간 고처리량 추론을 구현한다. 이를 통해 자연어 처리 및 생성 애플리케이션의 보편화를 촉진하며, 기존 솔루션 대비 최대 3분의 1의 엔드투엔드 지연시간과 1.4배 높은 처리량을 제공한다.

스노우플레이크는 라마 3.1 모델을 단일 GPU 노드로 미세 조정할 수 있도록 하여 비용과 복잡성을 낮추고, AI 생태계에서 폭넓은 활용을 가능하게 한다. 기업들은 이 솔루션을 통해 대규모 생성형 AI 애플리케이션을 더 쉽게 구축하고 배포할 수 있다.

스노우플레이크 AI 리서치팀은 딥스피드(DeepSpeed), 허깅페이스(HuggingFace)와 같은 AI 커뮤니티와 협력해, 메모리 효율이 높은 오픈소스 추론 및 파인튜닝 시스템을 제공하며, 오픈소스 혁신을 촉진하고 있다. 이를 통해 수천억 개의 매개변수를 가진 초거대 모델을 효율적으로 활용할 수 있는 새로운 솔루션을 제공하고 있다.

비벡 라구나단(Vivek Raghunathan) 스노우플레이크 AI 엔지니어링 부사장은 “스노우플레이크는 메타의 첨단 모델을 스노우플레이크 코텍스 AI를 통해 고객에게 직접 제공할 뿐만 아니라, 더 폭넓은 생태계에서 AI를 고도화하기 위해 128K 컨텍스트 윈도우와 다중노드 추론, 파이프라인 병렬화, 8비트 부동 소수점 양자화 등을 지원하는 새로운 연구 및 오픈소스 코드로 기업과 AI 커뮤니티의 역량을 강화하고 있다”고 말했다.

 

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지