AI 모델의 편향(Bias)은 윤리적인 관점 및 규제와 비즈니스 차원에서도 영향이 크다. EU의 인공지능법 시행과 미국 연방거래위원회(FTC)의 AI 모델 규제 강화로, 기업의 AI 공정성 및 규정을 준수 압박이 커지고 있다. 특히 고객 서비스 업무에 AI를 활용하는 경우, 편향된 모델이 법적 문제 및 브랜드 가치 리스크와 밀접히 연결 돼 더욱 중요하다. 하지만 기존의 편향 완화 방법은 대부분 고비용의 재학습 과정이 필요해 대규모 AI 시스템에서는 적용하기 어렵다.

생성AI 딥시크(DeepSeek)는 강력한 자연어 처리 성능과 방대한 학습 데이터로 인해 최근 주목받고 있다. 특히, 비영어권 언어 처리 능력이 뛰어나고, 비용 대비 효율성이 높아 다양한 분야에서 활용이 증가하고 있다.

그러나 AI 모델의 학습 데이터에 내재된 문화적, 사회적 편향이 반영될 가능성이 있으며, 특정 언어 또는 관점이 과대 또는 과소 표현될 수 있다는 문제가 제기된다. 이를 해결하려면 학습 데이터의 다양성을 확보하고, 공정성 검토 및 지속적인 알고리듬 개선이 필수적이다. 

AI 기술 글로벌 기업 히룬도(Hirundo)가 자사 편향 제거(Bias Unlearning) 기술로 딥시크의 오픈소스 대규모 언어 모델(LLM) ‘딥시크-R1-디스틸-라마-8B(DeepSeek-R1-Distill-Llama-8B)’의 편향을 최대 76%까지 감소한 탈편향 모델을 출시했다.

기존 모델 대비 편향 두 배

히룬도 연구 결과에 따르면, 딥시크-R1-디스틸-라마-8B는 라마 3.1 8B 모델 대비 약 두 배의 편향(Bias)을 포함했다. AI 모델 편향 평가 표준 데이터셋 및 벤치마크인 BBQ 데이터셋으로 편향 평가 결과, 인종 편향이 17%에서 32.5%, 국적 편향이 29%에서 50.3%, 성별 편향이 25.6%에서 39.3%로 증가했다.

편향률 76% 감소, 성능은 그대로

히룬도는 자사 편향 제거 기술을 적용해 모델의 정확성과 활용성을 유지하면서 편향을 줄이는 데 성공했다. 

인종 편향은 32.5%에서 7.8%로 76% 감소했고, 국적 편향은 50.3%에서 15.3%로 69.5% 개선했으며, 성별 편향은 39.3%에서 13.2%로 66.3% 감소했다. 

이와 동시에 모델 성능은 거의 그대로 유지됐다. 

AI 언어 모델 답변의 정직성과 사실성을 평가하는 ‘TruthfulQA Perplexity Score’는 9.8에서 9.9, AI의 논리적 사고와 문제 해결 능력을 평가하는 ‘LogiQA2.0 Accuracy Score’는 42.5%에서 42.6%로 비슷한 수치를 나타냈다.

이 탈편향된 모델은 기업이 신뢰할 수 있는 AI 모델을 배포하고 고객 응대에서 발생할 수 있는 리스크를 줄일 수 있다. 이 모델은 허깅 페이스(Hugging Face)에서 이용 가능하다.

효율·확장성 높은 편향 제거 기술

한편, 히룬도의 편향 제거 기술은 기존의 비효율적인 재학습 방식과 달리 확장 가능하고 효율적인 솔루션을 제공한다.

1시간 이내에 컴퓨팅 자원으로 오픈소스 LLM의 편향을 제거할 수 있고, 제거 후에도 모델의 정확도 및 활용성 등 성능은 그대로 유지된다. 또한 사전 학습된 모델뿐만 아니라 파인튜닝된 모델에도 적용할 수 있으며, 개인정보 보호 및 지식 제거 기능을 지원해 AI가 민감하거나 불필요한 정보를 삭제할 수 있다.

히룬도는 이번 출시를 계기로 공정한 AI를 구현하기 위해 연구자, 개발자 및 기업이 책임 있는 AI 개발을 지원할 예정이다. 

히룬도 벤 루리아(Ben Luria) CEO는 “이번 탈편향 모델 공개를 통해 더욱 책임 있는 AI 생태계를 구축하는 데 기여할 것”이라고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지