글로벌 오픈소스 솔루션 기업 레드햇이 대규모언어모델(LLM)의 개발, 테스트, 실행을 위한 생성AI 파운데이션 모델 플랫폼인 레드햇 엔터프라이즈 리눅스 AI(Red Hat Enterprise Linux AI, 이하 RHEL AI) 1.2를 출시했다.

RHEL AI는 특수 제작 RHEL 이미지에 오픈소스 그래니트(Granite) LLM과 인스트럭트랩(InstructLab) 모델 정렬 도구를 결합한다. AI 엔지니어 및 데이터 과학자의 역량을 강화하는 RHEL AI 1.2는 조직이 자체 민감 데이터를 사용해 LLM을 보다 효율적으로 미세 조정(fine tuning)하고 배포할 수 있는 기업 맞춤형이다. 또한 AMD 인스팅트(AMD Instinct) 가속기를 포함한 광범위한 하드웨어 가속기를 지원한다.

주요 특징을 살펴보면 엔비디아 GPU가 탑재된 레노버 씽크시스템(Lenovo ThinkSystem) SR675 V3 서버에서 사용할 수 있고, 사용자는 RHEL AI의 공장 출하 시 기본 탑재 옵션을 활용할 수 있어 배포가 더 빠르고 쉬워진다.

드라이버, 라이브러리 및 런타임을 포함한 전체 AMD ROCm 소프트웨어 스택과 함께 AMD 인스팅트 가속기를 지원한다. RHEL AI 1.2로 조직은 훈련 및 추론에 AMD 인스팅트 MI300x GPU를, 추론 작업에는 AMD 인스팅트 MI210 GPU를 활용할 수 있다.

애저(Azure) 및 구글 클라우드(이하 GCP) 환경을 지원해 사용자는 레드햇에서 다운로드한 RHEL AI를 애저 및 GCP로 가져와 RHEL AI 기반 GPU 인스턴스를 생성할 수 있다.

주기적인 체크포인트로 모델 미세 조정 중 긴 트레이닝 실행을 일정한 간격으로 저장할 수 있다. 이 기능을 통해 인스트럭트랩 사용자는 처음부터 다시 시작하지 않고 마지막으로 저장된 체크포인트에서 훈련을 재개할 수 있어 시간과 컴퓨팅 리소스를 절약할 수 있다.

인스트럽트랩 CLI(Command Line Interface)가 사용 중인 하드웨어 가속기 유형을 자동으로 감지하고 그에 따라 최적의 성능을 위한 인스트럭트랩 파이프라인을 구성할 수 있어 수동 설정이 불필요하다.

ilab train은 합성 데이터를 사용한 모델의 멀티 페이즈 트레이닝을 위해 파이토치(PyTorch) FSDP(Fully Sharded Data Parallel)를 기본으로 사용한다. 이는 모델의 파라미터, 그래디언트(gradient) 및 옵티마이저(optimizer) 상태를 데이터 병렬 작업자(예: GPU)에 걸쳐 샤딩하여 훈련 시간을 획기적으로 단축한다. 훈련 시간은 선형적으로 단축돼 하나의 가속기 훈련에 X시간이 걸리는 경우, N개의 가속기를 사용하면 X/N시간으로 단축할 수 있다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지