오라클이 AI 기반 종양 진단 기업 이매진(Imagene, CEO 딘 바이탄)과 함께 디지털 병리학 및 종양학 분야의 연구 개발을 위해 설계된 범암(pan-cancer) 기반 종양 인텔리전스 파운데이션 모델인 ‘CanvOI(Cancer vision Oncology Intelligence)’를 30일 발표했다.

OCI에서 실행되는 CanvOI는 치료 반응 예측, 생체지표(biomarker) 발견, 질병 예후 평가, 최신 결과를 통한 병리학적 특징 식별 등 종양학 연구의 다운스트림 애플리케이션(downstream application) 개발을 위한 비전 데이터 백본(backbone)을 제공한다.

CanvOI의 사전 훈련 데이터 세트의 특징
CanvOI의 사전 훈련 데이터 세트의 특징

11억 개의 매개변수로 구성됐으며, 63만 개 이상의 조직 샘플에서 추출된 7천만 개 이상의 이미지를 사용해 DINOv2 자가 지도 학습(Self-Supervised Learning) 프레임워크 내에서 ViT-g 모델을 훈련했다.

효율을 위해 초기에는 224×224 픽셀 타일로 모델 훈련을, 이후 380×380 픽셀 타일로 미세 조정했다. 또한 각 슬라이드에 대해 중복되지 않는 조직 포함 타일 세트를 생성하고, 조직 존재에 대한 사전 정의된 임계값을 충족하지 않는 타일을 필터링하며 노이즈를 줄였다.

한편, AB-MIL이라는 지도 학습 방법을 사용해 파운데이션 모델 인코더가 생성한 타일 임베딩을 슬라이드 수준의 예측으로 그룹화했으며, 다른 공개 사전 훈련 파운데이션 모델인 H-optimus-031, Prov-GigaPath14, Virchow13 및 Hibou-L32가 생성한 임베딩과 비교하는 등 성능 검증을 마쳤다.

해당 검증은 라벨이 지정된 데이터에 대한 의존도를 평가하기 위해 약 1000개의 슬라이드를 포함하는 내부 폐 벤치마크를 사용했으며, 라벨이 지정된 슬라이드 수가 점진적으로 감소함에 따라 다양한 기초 모델의 성능을 평가했다. 또한 모델의 효과가 다양한 양의 라벨이 지정된 데이터와 함께 어떻게 확장되는지를 관찰했다.

관찰 결과, 모든 작업에서 평균적으로 1.5%부터 7.4%의 AUC(Area under the Curve, 예측 성능 수치, 1에 가까울 수록 정확한 측정) 향상을 달성했다. 특히 라벨이 지정된 슬라이드의 10%를 사용할 때 향상 수치가 가장 도드라졌으며, 가장 작은 데이터셋(약 100개의 슬라이드)에서도 AUC 0.83을 기록했다.

엘리슨 공과대학(Ellison Institute of Technology, EIT)의 창립 이사 겸 공동 CEO이자 이매진 이사회 구성원 데이비드 아구스(David Agus) 박사는 “연구자들은 클라우드에서 포괄적인 종양학 인텔리전스에 접근해 더 빠르고 효율적으로 대응책을 개발할 수 있게 됐다.”라며 “이 기술은 암 연구의 새로운 지평을 열어 암이 관리 가능한 질환으로 취급되는 미래에 한 걸음 더 다가갈 수 있도록 한다.”라고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지