생성AI 기반 애플리케이션을 개발하는 기업들이 직면한 주요 과제 중 하나는 고성능 대규모 언어 모델(LLM)을 사용하는 과정에서의 비용 과다와 모델 신뢰도 저하 문제다. 특히 여러 모델을 병행 활용하는 대규모 서비스 환경에서는 쿼리 성격이나 예측 정확도에 따라 적합한 모델을 유연하게 선택하는 구조가 필요하다.

하지만 이러한 기능을 자체적으로 구축하려면 높은 인프라 비용과 복잡한 운영 문제가 뒤따르기 때문에, 개발 생산성과 거버넌스를 동시에 확보할 수 있는 효율적인 라우팅 솔루션에 대한 수요가 급증하고 있다.

서비스 메시 전문 기업 테이트레이트(Tetrate)가 생성AI 모델 라우팅을 위한 관리형 서비스 ‘에이전트 라우터 서비스(Agent Router Service)’를 공식 출시했다고 밝혔다. 이 서비스는 대규모 언어 모델을 활용하는 개발자들이 쿼리 성격과 비용, 모델 성능, 작업 특수성에 따라 가장 적절한 모델로 AI 요청을 자동 분산시킬 수 있도록 지원한다.

모델 최적 라우팅으로 비용 절감·오류 회피

에이전트 라우터 서비스는 쿼리 복잡도, 추론 비용, 작업 유형, 응답 시간 등을 기준으로 각 요청을 평가한 뒤, 지정된 정책에 따라 최적의 모델을 선택한다. 이를 통해 특정 모델에 대한 종속성을 줄이고, 모델 오류나 지연 발생 시 자동으로 대체 모델로 전환할 수 있다. 이러한 기능은 모델 신뢰성 확보와 운영 비용 통제라는 두 가지 과제를 동시에 해결해준다.

ㅇ
에이전트 라우터 서비스 화면

에이전트 라우터 서비스는 테이트레이트가 직접 운영하는 엔보이(Envoy) 기반 AI 게이트웨이 위에 구축됐으며, 멀티 테넌시 및 온프레미스 배포 환경도 지원한다. 개발자는 직접 보유한 API 키를 사용하거나, 테이트레이트가 제공하는 키를 활용할 수 있다.

이외에도 ▲더 안정적이거나 저렴한 모델로의 자동 페일백 ▲프롬프트 테스트와 개선을 위한 인터랙티브 플레이그라운드 ▲다양한 모델 간 성능 비교를 위한 A/B 테스트 기능을 포함하고 있다. 이를 통해 생성AI 기반 애플리케이션을 빠르게 테스트하고 운영할 수 있는 기반을 제공한다.

에이전트 라우터 서비스는 다양한 생성AI 활용 시나리오에 맞춰 동작한다. 예를 들어, 챗봇의 경우 높은 응답성과 낮은 지연 시간을 가진 모델로 대화 쿼리를 자동 분배하며, 코드 생성의 경우 언어, 문맥, 컴플라이언스 기준을 반영해 정확도와 비용을 고려한 모델 선택을 지원한다. 또한, AI 에이전트 구성 시에는 다중 API 호출과 태스크 분배를 통합 관리해 운영 복잡도를 줄이고 실행 효율성을 높인다.

에이전트 라우터 서비스는 AI 거버넌스를 위한 별도 관리 솔루션인 ‘에이전트 오퍼레이션 디렉터(Agent Operations Director)’와 연동된다. 이 솔루션은 팀, 클라우드, 모델 전반의 정책 일관성을 유지할 수 있는 중앙 통제 환경을 제공한다.

테이트레이트는 최근 FINOS(금융 오픈소스 재단)에 합류했으며, 미국표준기술연구소(NIST)와 함께 AI 거버넌스 표준 마련에도 기여하고 있다. 이를 기반으로, 금융 등 규제가 엄격한 산업에서도 개발자 자유도와 보안 통제력을 동시에 확보할 수 있는 프레임워크를 제시하고 있다.

 

[알림] GTT KOREA GTT SHOW는 오는 8월 12일 오후 2시부터 3시까지 “피해 큰 BFPdoor 같은 커널 기반 악성코드 막는 EDR과 마이크로세그멘테이션 실전 보안 전략”을 주제로 웨비나를 진행합니다. BPFdoor 같은 커널 기반의 악성코드가 사용하는 공격 기법과 침투 단계별 위협의 소개, EDR과 마이크로세그멘테이션이 어떻게 상호보완적으로 작동하여 침입 초기 탐지부터 내부 확산 차단까지 이어지는 보안 체계의 구축 전략과 새로운 형태의 변종 공격에 유연하게 대응하는 제로 트러스트 기반 보안 전략을 실전 사례와 함께 제시합니다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지