의료 분야의 대형 언어 모델(LLM) 제공 생성AI 기업 오픈에비던스(OpenEvidence)는 자사의 생성AI 오픈에비던스 AI가 미국 의료 면허 시험(United States Medical Licensing Examination, USMLE)에서 90% 이상의 점수를 받은 역사상 최초의 AI가 되었다고 발표했다. 앞서 챗GPT와 구글의 Med-PaLM2 등 AI는 각각 59%, 86%의 점수를 기록했다.

생성AI와 미국 의료 면허 시험
USMLE는 미국에서 의료 면허를 취득하기 위한 3단계 시험이다. 지식, 개념 및 원칙을 적용하는 의사의 능력을 평가할 뿐만 아니라 안전하고 효과적인 환자 치료의 기초를 형성하는 기본적인 환자 중심 기술을 입증해야 한다.
USMLE는 생의학 및 임상 과학에 대한 폭 넓은 이해를 요구하는 엄격한 테스트로 사실적 기억 뿐만 아니라 의사 결정 능력도 테스트한다. USMLE에서 90% 이상의 점수를 획득한 인공 지능(18개월 전만 해도 거의 상상조차 할 수 없었던 업적)은 일반적으로 인공지능, 특히 오픈에비던스가 복잡한 의학 개념을 이해하고 적용하는 데 있어 엄청난 발전을 이루었음을 보여준다.
2023년 7월 11 일 기준으로 GPT-4와 ChatGPT는 모두 (A) 혈액 배양에 대해 오답을 한 반면, 오픈에비던스 AI는 (C) 인간 백혈구 항원-B27 분석에 올바르게 응답했다.
올해 초, 뉴잉글랜드 의학 저널 AI(New England Journal of Medicine AI)는 MIT와 하버드 의과대학의 연구원들과 협력하여 오픈에비던스에 의해 출판된 "우리는 여전히 임상 언어 모델이 필요한가?(Do We Still Need Clinical Language Models?)"라는 제목의 논문을 특집으로 다루었다.
의료 텍스트를 처리하도록 전문화된 언어 모델이 동일한 의료 도메인별 지능 작업과 비교할 때 일반 텍스트(예: GPT-3)에 대해 훈련된 훨씬 더 큰 일반 도메인 모델보다 성능이 우수하다는 것을 발견했다. 오픈에비던스의 논문은 의학 응용 분야에서 일하는 컴퓨터 과학자들의 저명한 커뮤니티인 2023년 건강, 추론 및 학습 컨퍼런스(CHIL)에서 최우수 논문상을 수상했다.
오픈에비던스 설립자인 다니엘 내들러(Daniel Nadler) 박사는 "오픈에비던스 AI가 미국 의료 면허 시험(USMLE)에서 90% 이상의 점수를 받은 역사상 최초의 AI가 됨에 따라 인공지능(AI)의 가능성에 대한 지평이 다시 정의되었다. USMLE에는 수백 개의 질문이 포함되어 있으며, 각각의 추가 USMLE 점수는 환자의 삶이나 죽음으로 이어질 수 있는 의학적 지식에 해당하는 여러 개의 추가 정답을 나타낸다. 만약 AI 시스템이 임상 환경에서 의사의 부조종사로 사용된다면 이 벤치마크의 단일 점수 차이는 AI 성능의 매우 영향력 있는 차이로 해석될 수 있다."고 말했다.
이어 그는 "2016년 BMJ에 발표된 널리 인용된 연구는 의학적 오류가 심장병과 암에 이어 미국에서 세 번째로 주요한 사망 원인이라고 추정했다. 그 규모로 의사를 보강하고 의료 오류를 5-10%까지 줄일 수 있는 시스템은 미국에서만 수만 명의 환자의 삶에 엄청난 영향을 미칠 것이다. 상대적으로, 그리고 이전의 최첨단 시스템을 기준으로 다루는 오픈에비던스 AI는 챗GPT보다 미국 의료 면허 시험에서 77% 더 적은 오답, 구글 Med-PaLM 2보다 31% 더 적은 오답을 기록해 USMLE의 AI 역사상 가장 낮은 오답율을 달성했한다. 의료 오류의 불균형적인 효과적인 측면에서 이러한 AI의 상대적인 성능을 고려하는 것이 타당하다."고 덧붙였다.
관련기사
- 자연어 처리·생성AI 기반 경험적 마케팅 툴 ‘핀포인트’...고객 이해·ROI 개선효과↑
- 인사 관리자를 위한 생성AI 활용 전략
- 고객 접점의 전 영역에 생성AI 적용해 고객과 직원 경험 향상
- 해커가 생각하는 생성AI
- “AI 기반 자동화는 업무 방식을 혁신하고 AI 잠재력 극대화할 것”
- 조지아 주립대 MBA 교육 과정에 들어간 국산 생성AI
- 인간에게 안전하고 유익한 ‘AI 거버넌스’ 연평균 35.6% 폭풍성장
- 딥노이드, 노코드 플랫폼으로 현장 중심 의료 AI 전문가 양성 나선다
- 정확성·효율성 높은 생성AI기반 검색 엔진... 비전문가도 사용 간편
- [기고] 챗GPT, 의료 AI의 새로운 이정표
- 복리후생 궁금하면 “엠마에게 물어봐”
- 의료계 생성AI 계획 ‘6%’에 불과
- AI는 언제쯤 전문 재무 분석가가 될 수 있나
