Arm, CPU 속도 향상...최신 Llama 3.2 LLM 처리 5배↑

AI가 빠르게 진화함에 따라 새로운 버전의 LLM이 계속해서 등장하고 있다. AI의 잠재력과 기회를 최대한 활용하기 위해서는 클라우드부터 에지에 이르기까지의 모든 곳에서 실행되는 LLM이 필요하지만, 이로 인해 상당한 컴퓨팅 및 에너지 수요가 발생하고 있다.

글로벌 반도체 기업 Arm이 메타(Meta)와 협력해 자사의 CPU에서 최신 Llama 3.2 LLM을 지원하도록 토큰 생성 및 처리 속도를 높였다고 25일(영국 현지시간) 전했다.

만약, Arm CPU에 최적화된 커널을 통해 Arm 기반의 모바일 디바이스에서 최신 Llama 3.2 3B LLM을 실행할 경우 기존 대비 처리 속도가 5배, 토큰 생성 속도가 3배 향상되어 생성 단계에서 초당 19.92개의 토큰을 처리할 수 있다.

따라서, 에지에서 더 많은 AI를 처리할수록 클라우드를 오가는 데이터의 전력이 절약되어 에너지 및 비용 절감이 가능하다.

또한 에지에서 소형 모델을 실행하는 것 외에도 클라우드에서 Llama 3.2 11B 및 90B와 같은 대형 모델도 실행할 수 있다. 특히, Arm 기반 서버 프로세서 'AWS 그래비톤4(Graviton4)'에서 11B 이미지 및 텍스트 모델을 실행하면 생성 단계에서 초당 29.3개의 토큰을 처리한다.

한편, Arm은 클라우드에서 에지에 이르기까지 개발자에게 Arm CPU에서 안정적으로 AI 성능을 지원하도록 자사의 온디바이스 AI 가속 소프트웨어 ‘Arm 클레이디(Kleidi)’를 오픈소스 딥러닝 프레임워크 ‘파이토치(PyTorch)’ 및 ‘익스큐토치(ExecuTorch)’와 통합하고 있다.

[알림] GTT KOREA와 전자신문인터넷이 오는 9월 27일(금) 서울 양재동 엘타워 그레이스홀(양재역)에서 공동으로 주최하는 “NABS(Next AI & Bigdata Summit) 2024”에서는 “비즈니스에 성공하는 AI & Big Data 혁신 전략”을 주제로 글로벌 AI와 빅데이터 산업을 이끌고 있는 글로벌 리더 기업들이 급변하는 기술과 비즈니스 환경에서 생산성과 효율성 및 비용 절감까지 조직과 비즈니스를 혁신할 수 있는 맞춤형 차세대 AI와 빅데이터 전략을 제시한다.

배성철 기자 epsilondelta@gttkorea.com

기자의 다른기사

상단영역

본문영역

Arm, CPU 속도 향상...최신 Llama 3.2 LLM 처리 5배↑

생성 단계 초당 19.92 토큰 생성
클라우드 및 AWS 서버 프로세서 대형 모델 처리 가능

관련기사

본문영역

키워드

관련기사