AI가 빠르게 진화함에 따라 새로운 버전의 LLM이 계속해서 등장하고 있다. AI의 잠재력과 기회를 최대한 활용하기 위해서는 클라우드부터 에지에 이르기까지의 모든 곳에서 실행되는 LLM이 필요하지만, 이로 인해 상당한 컴퓨팅 및 에너지 수요가 발생하고 있다.

글로벌 반도체 기업 Arm이 메타(Meta)와 협력해 자사의 CPU에서 최신 Llama 3.2 LLM을 지원하도록 토큰 생성 및 처리 속도를 높였다고 25일(영국 현지시간) 전했다.
만약, Arm CPU에 최적화된 커널을 통해 Arm 기반의 모바일 디바이스에서 최신 Llama 3.2 3B LLM을 실행할 경우 기존 대비 처리 속도가 5배, 토큰 생성 속도가 3배 향상되어 생성 단계에서 초당 19.92개의 토큰을 처리할 수 있다.
따라서, 에지에서 더 많은 AI를 처리할수록 클라우드를 오가는 데이터의 전력이 절약되어 에너지 및 비용 절감이 가능하다.
또한 에지에서 소형 모델을 실행하는 것 외에도 클라우드에서 Llama 3.2 11B 및 90B와 같은 대형 모델도 실행할 수 있다. 특히, Arm 기반 서버 프로세서 'AWS 그래비톤4(Graviton4)'에서 11B 이미지 및 텍스트 모델을 실행하면 생성 단계에서 초당 29.3개의 토큰을 처리한다.
한편, Arm은 클라우드에서 에지에 이르기까지 개발자에게 Arm CPU에서 안정적으로 AI 성능을 지원하도록 자사의 온디바이스 AI 가속 소프트웨어 ‘Arm 클레이디(Kleidi)’를 오픈소스 딥러닝 프레임워크 ‘파이토치(PyTorch)’ 및 ‘익스큐토치(ExecuTorch)’와 통합하고 있다.
관련기사
- Arm, 신규 이사회에 손영권 이사 선임
- 서울대 연구진, 안드로이드 기기 해킹 위협하는 ‘ARM CPU 보안 취약점’ 발견
- 모바일 게임 GPU 효율·성능 높이는 Arm ‘시간적 업스케일러’
- Arm, 모바일 AI 애플리케이션 개발 빨라지는 모바일 SoC 설계기술 공개
- 에지 AI 가속화하는 Arm 차세대 NPU 및 IoT 솔루션
- Arm ‘AI 가속 SW’, 텐서플로·파이썬 학습 라이브러리 통합
- 웨카, 슈퍼컴퓨팅 2024 참가...엔비디아 CPU 기반 AI 스토리지 클러스터 공개
- Arm 네오버스와 AWS 그래비톤4의 결합...AI와 클라우드 혁신 가속화
- Arm, ‘칩렛 시스템 아키텍처’ 공개 사양 발표...맞춤형 실리콘 제작 가능
- “SDV 넘어 AI 정의 자동차 시대, Arm이 앞당긴다”
