생성AI의 확산과 함께 관련 보안 위협도 정교화되고 있다. 특히 대규모 언어 모델(LLM)을 활용한 기업 환경에서, 추론 과정 자체가 공격 표적이 되는 새로운 유형의 사이버 위협이 부상하고 있다. 기존에는 데이터 주입이나 명시적 조작이 주요 공격 방식이었지만, 최근에는 논리 흐름의 내재적 제어를 통해 보이지 않는 방식으로 결과를 왜곡하는 기술이 현실화되고 있다.

LLM 추론 단계 도약 공격 방식 분석

생성AI 기반 보안을 전문으로 하는 사이버보안 스타트업 제리스AI(Xeris.ai)는 위협 연구소를 통해 ‘제리스(XERIS)-005: 추론 단계 도약(Reasoning Step Hopping) 공격’ 기술 보고서를 공개했다. 보고서는 악성 모델 컨텍스트 프로토콜 MCP(Model Context Protocol) 서버가 LLM의 추론 과정을 하이재킹해 결과를 은밀히 조작하는 과정을 상세히 설명하고 있다.

레지스-005 공격은 전통적인 주입 방식과 다르다. LLM이 각 추론 단계를 외부에서 검증하도록 설계된 경우, 공격자는 이 흐름 중 일부 단계만 미묘하게 조작해 전체 결과를 왜곡할 수 있다. 이러한 방식은 모델 자체가 조작을 인식하지 못하게 만든다는 점에서 매우 위험하다. 이 기술은 단순한 보안 결함이 아닌, AI 의사결정의 신뢰성과 정합성을 훼손할 수 있는 중대한 위협으로 분류된다.

MCP 서버의 역할과 공격자 통제 가능성

MCP 서버는 일반적으로 LLM과 외부 데이터 간의 중립적 연결 구조로 인식돼왔다. 그러나 보고서에 따르면, MCP 서버는 이제 실시간 추론 제어 권한을 가질 수 있으며, 그 결과는 사용자에게 전혀 인지되지 않은 상태에서 전달된다. 제리스AI는 이를 ‘논리 수준의 하이재킹’으로 정의하며, 즉각적인 데이터 주입보다 훨씬 더 은밀하고 파급력이 크다고 분석했다.

공동 창립자인 슐로모 투불(Shlomo Touboul)은 “공격자는 추론 흐름을 장악함으로써 눈에 보이지 않게 결론과 결정을 형성할 수 있다”고 경고했다. 또한, CEO인 라파엘 카스피(Reffael Caspi)는 “이전에는 수동적이던 MCP가 이제는 능동적 통제점이 되었다”며 “기업은 추론 단계 보안에 대해 선제적으로 대응해야 한다”고 강조했다.

이번 기술 보고서는 제리스AI 공식 웹사이트에서 전문이 공개되었으며, AI 및 사이버보안 전문가로 구성된 MCP 보안 커뮤니티에는 사전 배포되었다. 해당 커뮤니티는 신종 위협에 대한 심층 토론과 선제 대응 방안을 모색하는 전문가 그룹으로, 투명성과 공동 방어를 위한 네트워크 기반의 대응 체계를 구축하고 있다.

제리스AI는 생성AI의 신뢰 계층을 방어하는 데 있어 시급성이 높다고 판단하고 있으며, 조기 탐지와 보안 조치 강화를 위한 글로벌 협업을 강화하고 있다. 이번 보고서는 기업이 생성AI 기술을 활용함에 있어 추론 흐름 보호가 핵심 과제로 부상했음을 명확히 보여준다.

 

[알림] GTT KOREA GTT SHOW는 오는 8월 12일 오후 2시부터 3시까지 “피해 큰 BPF Door 같은 커널 기반 악성코드 막는 EDR과 마이크로세그멘테이션 실전 보안 전략”을 주제로 웨비나를 진행합니다. BPF Door 같은 커널 기반의 악성코드가 사용하는 공격 기법과 침투 단계별 위협의 소개, EDR과 마이크로세그멘테이션이 어떻게 상호보완적으로 작동하여 침입 초기 탐지부터 내부 확산 차단까지 이어지는 보안 체계의 구축 전략과 새로운 형태의 변종 공격에 유연하게 대응하는 제로 트러스트 기반 보안 전략을 실전 사례와 함께 제시합니다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지