AI 산업에서 초거대 언어모델의 실시간 활용 수요가 증가함에 따라, 기업들은 보다 빠르고 경제적인 추론 인프라를 요구받고 있다. 특히 생성AI 기술이 텍스트, 음성, 코드, 검색 등 다양한 애플리케이션으로 확장됨에 따라, 효율적인 추론 플랫폼과 오픈모델 접근성이 글로벌 AI 개발 환경의 핵심 요소로 부상하고 있다. 이러한 흐름에 발맞추어 그로크와 휴메인은 오픈AI의 최신 오픈모델을 즉시 사용할 수 있는 서비스를 전 세계에 출시하였다.
오픈AI 최신 오픈모델, 추론 최적화 플랫폼 상용화
AI 추론 플랫폼 그로크(Groq, CEO 조너선 로스)와 인공지능 기업 휴메인(Humain, CEO 타렉 아민)이 오픈AI의 gpt-oss-120B 및 gpt-oss-20B 모델을 자사 클라우드 플랫폼인 그로크클라우드(GroqCloud)에서 공식 출시했다고 발표했다.
오픈AI의 gpt-oss-120B와 gpt-oss-20B는 오픈소스로 제공되는 초대규모 언어모델로, 각각 1200억개와 200억개의 파라미터를 갖춘다. 두 모델 모두 최대 128K 토큰의 긴 컨텍스트를 지원하며, 코드 실행, 웹 검색 등 내장 도구와 결합해 복잡한 추론과 실시간 정보 제공이 가능하다. 높은 성능과 접근성으로 다양한 생성AI 응용 분야에 활용된다.
이번 출시는 오픈AI의 오픈소스 생태계 확장과 그로크의 초고속 추론 기술, 그리고 휴메인의 글로벌 인프라가 결합된 결과로, 전 세계 어디서나 저지연 AI 서비스 사용이 가능하도록 설계되었다. 특히 사우디아라비아 현지 개발자들을 위한 맞춤형 지원도 포함되어 있다.
그로크 CEO 조너선 로스는 “오픈AI는 오픈소스 모델의 고성능 기준을 새롭게 정의하고 있다”며, “그로크는 이러한 모델을 빠르고 경제적으로 실행할 수 있도록 설계되었으며, 이를 통해 전 세계 개발자들이 첫날부터 자유롭게 활용할 수 있다”고 말했다.
실시간 도구 통합과 초고속 추론 성능 지원
그로크는 이번 서비스에 코드 실행, 웹 검색 등 실시간 기능이 포함된 내장 도구를 함께 제공한다. 웹 검색 기능은 최신 정보를 실시간으로 제공하며, 코드 실행 도구는 복잡한 워크플로를 자동화할 수 있다.
128K 컨텍스트 길이를 기반으로 한 이 기능들은 추론 정확도는 물론 연산 유연성까지 확보하며, 다양한 산업 애플리케이션에 즉시 적용 가능하다. 특히 Whisper 등 기존 대규모 배포 사례에서 축적한 기술력을 바탕으로, 그로크는 오픈모델 추론에 최적화된 전용 스택을 제공한다.
속도 측면에서도 gpt-oss-120B는 초당 500토큰 이상, gpt-oss-20B는 초당 1000토큰 이상의 처리 속도를 실현하고 있다. 이와 같은 성능은 고빈도 실시간 API 호출이 필요한 환경에서도 안정적인 성능을 제공한다.
저비용 고성능 인프라, 글로벌 개발자 환경 대응
그로크는 고속 추론 성능을 유지하면서도 매우 낮은 비용을 책정하였다. 가격은 gpt-oss-120B 기준 입력 토큰 100만 개당 0.15달러, 출력 토큰 100만 개당 0.75달러이며, gpt-oss-20B는 입력 0.10달러, 출력 0.50달러다. 툴 호출 기능은 한시적으로 무료로 제공된다.
휴메인 CEO 타렉 아민은 “그로크는 우리가 사우디에 도입하고자 하는 차세대 AI의 추론 속도, 확장성, 비용 효율성을 모두 충족하고 있다. 세계 최고 수준의 오픈모델과 글로벌 인프라를 통해 사우디의 새로운 혁신을 이끌고, 오픈AI의 리더십을 적극 지원하겠다”고 밝혔다.
그로크는 북미, 유럽, 중동에 걸쳐 데이터센터 인프라를 확보하고 있으며, 그로크클라우드를 통해 모든 지역 개발자에게 최소 지연의 추론 서비스를 제공하고 있다. 이를 통해 기업과 개인 개발자 모두가 오픈모델을 자유롭게 실험하고 활용할 수 있는 기반이 마련되었다.

관련기사
- AI 기반 자율 방어·복구로 다크 AI 사이버 공격 초고속 대응
- 생성AI 추론 단계 하이재킹 위협 부상...기업 보안 경계 강화 필요
- 실시간 에지 인프라 핵심 ‘포그 네트워킹’...스마트 산업 전환·AI 통합으로 연평균 43.5% 쾌속성장
- 성능 2배 향상한 ‘에지용 오픈소스 AI 모델’...비용 절감·보안 강화
- AI 추론 성능 10배 향상...기업 경쟁력 좌우할 차세대 클라우드 인프라
- 지정학 리스크·수출 규제에도 AI 서버 시장은 24.3% 성장
- ‘에지 AI SW’ 시장, 클라우드 의존 줄이고 실시간 데이터 처리 혁신하며 연평균 28.8% 급성장
- AI 추론 워크로드 최적화하는 지능형 데이터 인프라
- 엔비디아, 양자화·텐서RT 최적화로 ‘스테이블 디퓨전 3.5’ 성능 2배↑
- ‘엔비디아 NIM’ 기반 AI 모델 추론 배포 자동화...LLM 운영 효율 극대화
- A10 네트웍스, AI 및 LLM 추론 최적화 고성능 보안 인프라 기술
- 오픈AI, GPT-5 공개...한국어 벤치마크서 전문가 수준 넘어서
- 1마이크로초 미만 초저지연 머신러닝 추론 가속기, 기업 운영 효율과 수익성 동시 확보
- 게임 개발자 90%가 AI 사용...게임 개발 새 표준 ‘AI 에이전트·데이터 기반 접근법’
- 오픈AI, 국내 생성AI 창작 지원 본격화...韓 창작자 글로벌 진출 가속
- 공식 출범한 오픈AI 코리아, 아시아 AI 혁신 중심지 선언
- 오픈AI, 초대 韓 지사장에 김경훈 전 구글코리아 사장 선임
- 결정론적 AI와 자율 추론 결합...복잡한 서비스 장애 실시간 해결
