인공지능(AI)의 발전 속도가 빨라지면서, 보다 효율적이고 정밀한 데이터 처리 및 추론 능력을 갖춘 모델의 필요성이 증가하고 있다. 기존 AI 모델들은 텍스트, 이미지, 오디오 등의 데이터를 개별적으로 분석하는 데 집중했으나, 최근 멀티모달(Multimodal) 기술의 발전으로 다양한 데이터 유형을 종합적으로 처리하는 기술이 주목받고 있다. 이러한 변화 속에서 기업들은 보다 강력한 AI 모델을 개발해 시장 경쟁력을 높이고 있다.

글로벌 AI 기업 바이두(Baidu)가 네이티브 멀티모달 파운데이션 모델 ‘어니(ERNIE) 4.5’와 심층 사고 추론 모델 ‘어니(ERNIE) X1’을 포함한 최신 파운데이션 모델을 출시했다.

이 두 모델의 출시로 바이두의 LLM 기반 AI챗봇인 어니 봇(ERNIE Bot)이 기존 예정보다 앞서 무료로 공개되었으며, 바이두는 이번 출시를 통해 멀티모달 및 추론 AI 모델 기술의 경계를 확장하고, 보다 저렴한 가격대로 고급 AI 기능을 제공하는 데 주력하고 있다.

네이티브 멀티모달 파운데이션 모델 어니 4.5

어니 4.5는 ▲동적 주의 마스크 ‘FlashMask’ ▲이종 멀티모달 MoE(Mixture-of-Experts) ▲시공간 표현 압축 ▲지식 중심 학습 데이터 구축 ▲자체 피드백 강화 사후 학습과 같은 바이두가 자체 개발한 다중 양식의 공동 모델링을 통한 협업 최적화를 지원한다.

여러 핵심 기술을 통한 향상된 언어 능력을 바탕으로, 이해, 생성, 추론 및 기억 능력에서 개선을 보였으며, 환각 현상 방지, 논리적 추론 및 코딩 능력을 향상했다.

특히, 어니 4.5의 멀티모달 기능은 텍스트, 이미지, 오디오 및 비디오 콘텐츠의 통합 및 이해를 지원하며, 맥락 인식 기능이 탑재돼 인터넷 밈, 패러디 만화 등을 이해할 수 있다. 다양한 벤치마크 테스트에서 GPT-4.5보다 우수한 성능을 보였으며, 가격은 GPT-4.5의 1% 수준으로 책정되었다.

심층 사고 추론 모델 ERNIE X1

도구 사용이 가능한 바이두의 멀티모달 심층 사고 추론 모델인 X1은 점진적 강화 학습 방법, 사고 및 행동 사슬을 통합하는 엔드투엔드 학습 접근 방식, 통합 다면적 보상 시스템을 기반으로 개발됐다.

이를 기반으로 중국어 지식 Q&A, 문학 창작, 원고 작성, 대화, 논리적 추론 및 복잡한 계산을 지원하며, 특히 ▲주어진 문서에 대한 Q&A ▲이미지 이해 ▲AI 이미지 생성 ▲코드 해석 ▲웹페이지 읽기 ▲계층 구조 매핑 ▲바이두 학술 정보 및 기업 정보 검색 및 프랜차이즈 정보 검색 등의 기능이 탑재됐다.

기업 사용자와 개발자는 바이두 AI 클라우드의 ‘첸팬(Qianfan)’ 파운데이션 모델 플랫폼을 통해 어니 4.5의 API에 직접 액세스할 수 있으며, 어니 X1은 곧 첸팬 플랫폼에서 제공될 예정이다.

바이두는 또한 어니 4.5와 X1 모두 자사 제품 생태계에 점진적으로 통합할 계획이다. 이러한 통합은 바이두 검색, 웬샤오얀(Wenxiaoyan) 앱 및 기타 서비스를 포함해 더 넓은 범위의 개인 사용자에게 더욱 다재다능하고 향상된 경험을 제공할 예정이다.

바이두는 어니 4.5 및 X1의 출시와 함께 대규모 언어 모델 개발과 AI 생태계 구축에 대한 지속적인 투자를 강조하고 있다. 2025년은 AI 기술의 전환점이 될 중요한 시기로, 기업들은 보다 강력하고 경제적인 AI 모델을 필요로 하고 있다. 바이두는 향후 AI 모델의 정밀도와 확장성을 높이기 위해 데이터 센터 및 클라우드 인프라 확장에도 적극적으로 투자할 계획이다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지