글로벌 기업들은 생성AI와 대규모 언어 모델(LLM, Large Language Model)을 활용한 서비스 확대 과정에서 파일럿 단계에 머무르거나 확장 실패로 이어지는 문제에 직면해 있다. 가트너(Gartner)는 2027년까지 에이전트 AI 프로젝트의 40% 이상이 취소 또는 실패할 것으로 전망했으며, 일부 연구에서는 AI 프로젝트의 확장 실패율이 87%에 달한다고 지적했다.
이러한 문제의 주요 원인은 비정형 데이터를 처리하지 못하거나 추론 결과를 실용화하지 못하는 기존 데이터 도구의 한계 때문이다. 이에 따라 데이터 팀은 신뢰할 수 있고 비용 효율적인 추론 파이프라인을 빠르게 프로덕션 환경에 적용할 수 있는 기술을 필요로 하게 되었으며, 이는 새로운 오픈소스 솔루션에 대한 시장 수요로 이어지고 있다.
AI 및 에이전트 애플리케이션 구축을 지원하는 타입데프(Typedef, 공동 창립자 코스타스 파르달리스 Kostas Pardalis)는 파이스파크(PySpark)에서 영감을 받은 오픈소스 데이터프레임(DataFrame) 프로젝트 ‘페닉(Fenic)’을 공개했다.

비정형 및 정형 데이터를 의미적 인텔리전스로 변환해 LLM 추론 향상
페닉은 비정형 및 정형 데이터를 의미적 인텔리전스로 변환해 LLM 추론을 효율적으로 수행할 수 있도록 설계된 데이터 처리 엔진이다.
이번에 발표된 페닉 0.3.0은 러스트(Rust) 기반 진자(Jinja) 템플릿을 통해 루프, 조건문, 배열을 포함한 동적 데이터 인식 프롬프트를 지원하며, 퍼지 문자열 매칭 기능을 내장해 차단, 중복 제거, 레코드 연결을 포함한 6가지 알고리듬을 제공한다.
또한 파이던틱(Pydantic) 기반 스키마를 도입해 구조화된 반환 유형을 가진 시맨틱 맵(semantic.map) 연산자를 포함, 의미 연산자 전반에 깔끔하고 일관된 출력을 지원한다. 이외에도 페닉 카탈로그를 통한 파이프라인 영구 뷰 저장·재사용·구성이 가능하며, 코히어(Cohere) 및 제미나이(Gemini) 임베딩과 요약 등 신규 모델과 기능을 지원한다.
AI 파이프라인을 위해 처음부터 LLM 추론 설계
타입데프의 페닉은 기존 데이터 도구들이 LLM 환경에 맞게 개량된 것과 달리 처음부터 LLM 추론을 위해 설계된 점이 특징이다. 페닉 쿼리 엔진은 이메일, 통화 기록과 같은 비정형 데이터를 직접 처리할 수 있으며, 효율적인 일괄 추론을 지원한다. 또한 의미적 특징 엔지니어링, 고정밀 개체명 인식 및 복제, 자동화된 사용자 생성 콘텐츠 관리, 핀테크 분야의 거래 강화 및 분류 등 다양한 산업별 활용 사례를 제공한다.
타입데프는 오픈소스 페닉을 통해 기본 기능을 누구나 활용할 수 있도록 하고, 엔터프라이즈용 확장 기능을 추가 제공한다. 이를 통해 웹 기반 협업 인터페이스, 보고 및 분석 기능, 복잡한 AI 워크플로 관리 등을 지원하며, 데이터 팀이 반복적 실험을 통해 빠르게 프로덕션에 적합한 워크로드를 발굴할 수 있도록 돕는다.
타입데프 공동 창립자이자 페닉 책임자인 코스타스 파르달리스는 “타입데프는 개방형으로 구축하여 혁신과 가치 실현 시간을 가속화하는 데 전념하고 있다”며 “페닉의 최신 릴리스에는 글루 코드와 취약한 프롬프트를 줄이고, 더 저렴하고 안정적인 파이프라인을 제공하는 기능이 포함되어 있다. 이를 통해 AI 워크플로를 프로덕션 환경에 더 빠르게 배포할 수 있다”고 강조했다.
타입데프는 앞으로도 페닉을 기반으로 비정형 데이터의 구조화, 추론의 실용화, 의미론적 통찰력 확보를 지원해 기업들이 확장 가능한 AI 파이프라인을 구축하도록 지원할 계획이다. 깃허브(GitHub) 프로젝트 페이지와 공식 블로그를 통해 페닉 0.3.0의 전체 문서와 데모가 제공되고 있다.
페닉 0.3.0 릴리스는 LLM 추론과 비정형 데이터 처리에 특화된 오픈소스 데이터프레임 솔루션으로, 데이터 팀이 안정적이고 비용 효율적인 AI 파이프라인을 구축하는 데 중요한 역할을 할 것으로 평가된다. 생성AI 활용이 가속화되는 가운데, 페닉은 엔터프라이즈가 직면한 확장 실패와 파일럿 마비 문제를 해결하는 대안으로 자리잡고 있다.
관련기사
- 엔터프라이즈 AI 성능 극대화...델, 엔비디아·엘라스틱과 데이터·GPU 통합
- 생성AI 추론 단계 하이재킹 위협 부상...기업 보안 경계 강화 필요
- 4비트 양자화로 LLM 추론 속도 56%↑
- AI 모델 최적화 범용 추론 플랫폼 확대...하이브리드 클라우드 전반에 AI 도입 가속
- [컴퓨텍스 2025] 미텍 컴퓨팅, 인텔 제온 6 탑재 AI·HPC·클라우드·엔터프라이즈 서버 공개
- LLM 추론 데이터 보호 강화하는 ‘왕복 보호’ 기술...민감 정보 안전성 확보
- 레드햇, 업데이트된 ‘레드햇 AI’ 공개…하이브리드 클라우드서 엔터프라이즈 AI 강화
- 서비스형 LLM ‘LLMaaS’ 기업 AI 보안·규정 준수 강화
- ‘대체 데이터 시장’ 연평균 39% 초고속 성장... 신용카드·위성·소셜 데이터까지 확장
- 비정형 문서를 신뢰성 높은 데이터로...규정 준수 기반 ‘AI 문서 자동화’ 솔루션
- 기업 데이터 맥락 이해하는 AI 인텔리전스, 분석 정확도·의사결정 속도 향상
