생성AI 서비스 엔진 업체인 프렌들리AI(FriendliAI)가 LLM(대형 언어 모델)의 서비스 성능이 향상되었으며 양자화 지원, 확장된 호환성, 상태 캐싱과 같은 기능이 포함된 추론 서비스 엔진인 ‘페리플로(PeriFlow)’의 새로운 버전을 출시했다.
페리플로는 낮은 대기 시간과 높은 처리량의 LLM 서비스를 제공하면서 기존 솔루션에 비해 LLM 추론 서비스 비용을 40~80% 절감해준다. 이 엔진은 한국과 미국의 특허로 보호되는 프렌들리AI의 반복 일괄 처리를 포함하여 양자화 지원, 다중 어댑터 지원, 다중 모드 모델 지원, 상태 캐싱과 같은 새로운 주요 기능이 도입됐다.

페리플로의 AWQ(Activation-aware Weight Quantization)와 같은 양자화 방법을 사용하면 vLLM과 같은 기존 솔루션을 사용하여 4개의 GPU를 실행하는 것보다 단일 엔비디아 A100 80GB GPU에서 4비트 가중치 양자화가 적용된 70B Llama 2 모델을 실행하는 것이 더 높은 성능을 얻을 수 있다.
단일 GPU에서 특정 사용 사례에 맞게 미세 조정된 여러 어댑터(예: LoRA)를 실행할 수도 있다. 또한 페리플로는 이미지와 같은 텍스트가 아닌 형식을 입력할 수 있고 강력한 상태 캐싱을 제공한다.
이채환 기자
whaney@gttkorea.com
관련기사
- 생성AI 기반 컨택센터 솔루션, 직원·고객 경험↑
- 인간처럼 실수 통해 배우는 새로운 AI 학습 방법 'LeMa'
- 데이터에 숨겨진 답을 찾아주는 대화형 AI 데이터 분석가
- NPU 기반 온보드 에지 AI로 로보틱스 분야 혁신 이끈다
- 요즘 기업에 필요한 생성AI와 ML 통합 플랫폼은?
- [기고] 대규모 언어 모델의 이해와 성공적인 배포 전략
- 온프레미스 생성AI 구현에 가장 효과적인 방법 ‘sLLM’
- 기술에서 솔루션과 비즈니스로 거듭나는 AI 핵심 솔루션 AtoZ ①
- 엔비디아 전문가가 직접 설명하는 LLM 학습과 개발 방법
- LLM 성능·활용도 높이는 '양자 영감 알고리듬' 3가지 특허 적용
- 진화하는 AI 규정 준수하는 대화형AI
