생성AI 서비스 엔진 업체인 프렌들리AI(FriendliAI)가 LLM(대형 언어 모델)의 서비스 성능이 향상되었으며 양자화 지원, 확장된 호환성, 상태 캐싱과 같은 기능이 포함된 추론 서비스 엔진인 ‘페리플로(PeriFlow)’의 새로운 버전을 출시했다.

페리플로는 낮은 대기 시간과 높은 처리량의 LLM 서비스를 제공하면서 기존 솔루션에 비해 LLM 추론 서비스 비용을 40~80% 절감해준다. 이 엔진은 한국과 미국의 특허로 보호되는 프렌들리AI의 반복 일괄 처리를 포함하여 양자화 지원, 다중 어댑터 지원, 다중 모드 모델 지원, 상태 캐싱과 같은 새로운 주요 기능이 도입됐다.

페리플로의 AWQ(Activation-aware Weight Quantization)와 같은 양자화 방법을 사용하면 vLLM과 같은 기존 솔루션을 사용하여 4개의 GPU를 실행하는 것보다 단일 엔비디아 A100 80GB GPU에서 4비트 가중치 양자화가 적용된 70B Llama 2 모델을 실행하는 것이 더 높은 성능을 얻을 수 있다.

단일 GPU에서 특정 사용 사례에 맞게 미세 조정된 여러 어댑터(예: LoRA)를 실행할 수도 있다. 또한 페리플로는 이미지와 같은 텍스트가 아닌 형식을 입력할 수 있고 강력한 상태 캐싱을 제공한다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지