대규모 언어모델(LLM) 활용이 일상화되면서 기업들은 성능 향상과 맞바꾼 비용 부담에 직면하고 있다. 단순 문장 생성이나 질의응답조차 고가의 모델에 의존하는 경우가 많아, AI 프로젝트의 유지비가 급격히 늘고 있다. 

특히 생성AI 기반 에이전트나 자동화 시스템을 운영하는 개발자들은 매 요청마다 모델 선택을 수동으로 지정해야 해 비효율이 누적되고 있다. 이러한 문제 속에서, AI 품질을 유지하면서 비용을 줄이는 스마트한 모델 선택 기술이 절실히 요구되고 있다.

AI 인프라 전문기업 레모니(Lemony)가 ‘캐스케이드플로우(cascadeflow)’를 공식 출시했다고 밝혔다. 

이 기술은 단일 쿼리를 가장 적합하고 저렴한 언어모델로 자동 라우팅하는 ‘캐스케이딩 시스템’으로, AI 요청 단위별로 최적의 모델을 실시간 선택한다. 

레모니 공동창업자 겸 CEO 사샤 뷔얼러(Sascha Buehrle)는 “AI 비용은 폭발적으로 증가하고 있지만, 여전히 대부분의 팀이 모든 요청을 단일 대형모델에 고정해 실행하고 있다.”라며 “캐스케이드플로우는 작업마다 최적 모델을 동적으로 선택해 더 똑똑하고 효율적인 AI 개발을 가능하게 한다.”라고 말했다.

스펙큘러티브 실행 기반 ‘자동 모델 계단식 선택’

캐스케이드플로우의 핵심은 ‘추측 실행’과 품질 검증을 결합한 동적 모델 라우팅이다. 먼저 빠르고 저렴한 소형 모델(1백만 토큰당 0.15~0.30달러)로 요청을 예측 실행하고, 완성도·정확도·자신감 등 설정 가능한 기준으로 품질을 자동 검증한다.

결과가 기준에 미달할 경우에만 고성능 모델(1백만 토큰당 1.25~3달러)로 자동 승급 실행된다. 이러한 계단식 구조는 불필요한 비용을 억제하면서도 응답 품질을 유지하는 핵심 원리다.

캐스케이드플로우는 비용 최적화, 속도 향상, 예산 통제를 동시에 실현한다. 쿼리별 비용을 자동 추적하는 텔레메트리 시스템이 내장돼 있으며, 모델 및 공급자 단위의 상세 비용 데이터를 기록해 프로젝트 단위의 가시적 예산 관리가 가능하다. 간단한 요청은 50밀리초 이내의 응답 속도를 가진 모델로 처리하고, 복잡한 추론 작업만 고급 모델에 위임해 최대 10배의 지연시간 감소를 달성한다.

멀티 프로바이더·로컬 모델까지 완전 통합

캐스케이드플로우는 오픈AI(OpenAI), 앤트로픽(Anthropic), 그록(Groq), 올라마(Ollama), vLLM, 허깅 페이스(Hugging Face) 등 다양한 AI 모델 제공업체를 통합 지원한다. 하나의 통합 API를 통해 자동으로 최적 모델을 감지하며, 특정 벤더에 종속되지 않는 유연한 구조를 갖췄다.

또한 로컬 모델(vLLM, 올라마)을 우선 활용하고, 필요할 때만 클라우드 모델로 자동 전환하는 하이브리드 배포 방식을 지원해 비용 효율성과 데이터 주권을 모두 확보할 수 있다.

캐스케이드플로우는 MIT 라이선스 하에 완전 오픈소스로 공개돼 있으며, 타입 세이프티(type safety), 비동기 아키텍처(async architecture), 내장형 모니터링 기능을 제공한다. 또한 워크플로 자동화 플랫폼 n8n과 통합돼, 커뮤니티 노드(n8n-nodes-cascadeflow)를 통해 손쉽게 적용할 수 있다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지