사이버 보안 스타트업인 S2W와 KAIST 연구진이 다크웹에서 각종 범죄 데이터를 효과적으로 추출할 수 있도록 훈련한 다크웹 전문 언어 모델 다크버트(DarkBERT)를 공동 개발했다고 밝혔다. 지난 5월 4일 자연어처리 학술대회 ACL(Association for Computational Linguistics)에 연구 성과가 채택되고 논문이 공개된 다크버트는 다크웹과 같은 사이버 위협에 대한 효과적인 대응력을 전세계의 기관과 기업에 보급할 수 있는 방법이라는 것이 다크버트를 개발한 S2W와 KAIST 공동 연구진의 주장이다.
다크웹은 마약, 정보 유출, 랜섬웨어, 해킹 등 최근 급증하는 사이버범죄들의 온상이 되고 있는 익명 기반의 네트워크다. 각종 불법거래와 유해 콘텐츠들로 가득하지만 빠르게 사라지는 휘발성과 탈중앙화 기술로 보호되고 있어서 정확한 출처나 증거가 되는 데이터를 얻기가 매우 어렵다. 일반적인 인터넷 브라우저로는 접속이 안되고, 추적이 불가능한 익명화 기술이 적용돼 있어 많은 수사기관을 물론 기업들이 실체를 파악하는 데 어려움을 겪어 소위 ‘어둠의 네트워크’라고 불린다.

오픈AI의 챗GPT나 구글의 바드(Bard)와 같이 빠르게 발전하는 AI 기술만큼 그에 대한 우려도 덩달아 증폭되고 있다. ChatGPT를 이용한 악성코드 제작법이 시연되기도 하고, AI를 활용한 공격 방안들이 다크웹 내에 공유되는 사례도 있었다.
S2W에 따르면 다크버트는 다크웹의 문제점을 해결하는 것에 있어서 ▲다크웹상의 범죄/위협 활동에 대한 정확한 분류 ▲랜섬웨어와 정보유출 사이트에 대한 탐지 ▲사이버 안보나 범죄에 대한 중요한 위협활동 모니터링과 탐지 ▲범죄자와 해커들이 사용하는 은어와 신조어에 대한 높은 이해력과 추론 등의 영역에서 활용될 수 있을 것이라고 주장한다.
다크버트는 다크웹 콘텐츠 중 위협 수준이 높은 것을 선별할 수 있는 기능을 갖추고 있다. 수많은 다크웹 데이터 중 위협 수준이 극도로 높은 것을 실시간으로 선별하고 이를 사용자에게 제공할 수 있어 기존 AI 언어 모델에 비해 사이버 범죄에 더 유용하게 활용될 수 있다.
기존의 생성AI 모델은 최신 데이터에 접근하고 사실에 근거한 답변을 주기 위해 검색엔진과 결합해 사용되는 추세이다. 그러나, 이런 언어 모델은 다크웹에 직접 접근이 불가능하며, 다크웹의 복잡한 언어 특성을 잘 이해하도록 학습되지 못했으므로 사이버 보안 위협과 관련해서는 정확한 정보를 제공하는 것에 한계가 있다.

S2W는 자체 개발한 다크웹 검색엔진과 다크버트를 결합해 최신 범죄 데이터 중 위협 수준이 높은 것을 실시간으로 선별하고 이를 사용자에게 제공할 수 있다. 또한, 기존의 생성AI 모델과 결합해 연동하는 형태로 다크웹을 포함한 사이버보안에 대한 정보에 대해서 부정확한 부분을 보완하는 방식으로 사용이 가능한 강점이 있다.
범죄를 행하는 방식은 점점 진화되고, 교묘하게 특정 단어를 회피하며 범죄 흔적을 지우려 하는것이 범죄자의 특성이다. 다크버트는 트랜스포머(Transformer) 아키텍처 기반의 RoBERTa 모델의 특성을 사용해 이런 문제를 해결한다.
S2W는 이 다크버트를 일반에 공개할 계획이 없으며, 앞으로도 수사기관, 정부기관 등 사이버 범죄 정보를 취급할 수 있는 공익적 기관, 사이버 안보, 학문적 연구 목적, 기업 보안강화 목적으로만 사용될 예정이라고 밝히고 있다.
다크버트 논문 교신저자인 신승원 KAIST 교수는 “다크버트는 다크웹 약 6백만 페이지(2.2TB) 이상에 달하는 정보를 학습했으며, 사이버 위협 시나리오별 테스트를 통해 유출된 정보를 효과적으로 탐지하고 식별하는 훈련을 수행했기 때문에 정확성과 신뢰성이 핵심인 보안 분야에서 사용이 가능한 AI 모델”이라고 말한다.
서상덕 S2W 대표는 “다크버트는 국경의 경계가 없는 무수히 넓은 위협 공간에서 공격자의 행동을 꼼꼼히 살펴보며 수사와 분석을 돕는 인공지능이다. 이를 위해서는 사이버 범죄에 사용되는 언어를 잘 학습하고 이해하는 것이 기본”이라며, “다크버트는 가장 어두운 곳의 정보를 다루지만 밝고 안전한 세계를 지키는 일에 지금까지 출시된 어떤 AI 언어 모델보다 의미 있는 기여를 하게 될 것”이라고 강조했다.
관련기사
- 비즈니스 운영 위한 관리형 위협 인텔리전스 서비스 ‘NSHC BOIIM’
- 클라우드 시대의 보안 문제 해결위한 핵심 전략·솔루션 총정리 ②
- 랜섬웨어 공격의 75%가 공격 표면 노출로 인해 발생
- S2W, 다크웹 분석 언어모델 글로벌 NLP 학회 채택
- "전세계 사이버 공격, 아시아에 집중되고 있다"
- 2023년 5대 보안 위협 트렌드
- S2W, 텐서 시큐리티와 협력 통해 인도네시아 공공 시장 진출
- 산업 현장을 위험에 빠뜨리는 5대 OT 및 ICS 장치
- 생성AI 문제, 개인정보 및 지적재산 보호 AI 모델로 해결
- 의료 기관의 랜섬웨어 대처법
- S2W, 세계경제포럼 2023년 '기술 선도기업'으로 선정
- 랜섬웨어 공격 40% 증가, 최선의 방어책은
- 제조와 바이오 산업 기업의 랜섬웨어 대응법
- S2W, ‘SIS 2023’ 통해 AI 기술과 사이버 보안의 미래 소개
- 챗GPT로 생성된 악성코드 공격 막는 '체크AI'
- 증가하는 사이버 범죄, 어떻게 대응할 것인가
- 2분기를 괴롭힌 악성코드, ‘RAT·로더·트로이목마’
- S2W, 일본 시장 대상 다크웹 AI 언어모델 '다크버트 웨비나' 성료
- S2W, 마이크로소프트 '페가수스' 프로그램 선정
- 국내 개발 다크웹 전용 AI 언어모델에 쏟아지는 해외의 관심
- 최신 사이버 공격 동향 및 공격표면 관리법
- S2W, 다크웹 대응 금융 보안 기술 공개
- S2W, 일본 위기관리 산업 전시회 RISCON 2023 참가
- 다크웹 범죄 이력 5분 내 샅샅이 캐내는 전용 챗봇 'S2W 다크챗'
- 금융권 보안 강화하는 "다크웹 전문 생성AI"
- "국방 분야 '다크웹 위험' 선제 대응해야"
