소프트웨어 개발 현장에서는 코드 자동화 기술이 빠르게 발전하고 있다. 코딩 생산성 향상과 더불어 보안과 품질까지 함께 관리하는 AI 기반 개발 환경 구축이 중요하다. 하지만 생성AI를 활용한 코드 자동 생성은 효율성 측면에서 주목받지만, 여전히 보안 취약점이나 유지보수 문제 등 신뢰성 확보의 한계를 지닌다는 지적이 있었다.

한국전자통신연구원(ETRI)이 대규모 언어모델(LLM)을 활용해 소스코드를 정확하고 안전하게 생성할 수 있는 기술을 개발했다고 10일 밝혔다. 

품질 요소 반영한 코드 자동 생성

이 기술은 AI·소프트웨어 엔지니어링(SE)·프로그래밍 언어(PL) 를 융합해, AI의 코드 생성 능력을 고도화했다. 코드를 빠르게 만들면서 소프트웨어의 품질과 신뢰성까지 보장한다는 점에서 의미가 크다.

ETRI 연구진이 최근 공개한 LLM 기반 신뢰형 코드 생성기술에 대해 논의하고 있는 모습(자료제공=ETRI)
ETRI 연구진이 최근 공개한 LLM 기반 신뢰형 코드 생성기술에 대해 논의하고 있는 모습(자료제공=ETRI)

예를 들어 로그인 기능을 요청하면 단순한 인증 로직뿐 아니라 입력 검증, 예외 처리, 계정 잠금 등 품질 관리 요소가 함께 반영된 코드를 자동으로 생성한다. 파일 처리 기능의 경우에도 대용량 데이터 처리 효율과 메모리 관리 등 성능 요소를 고려해 코드가 구성된다.

C/C++ 특화 데이터셋으로 학습 정확도 개선

ETRI는 이번 기술 개발과 함께 C/C++ 언어에 특화된 대규모 학습 데이터셋을 구축했다.

C/C++ 언어는 산업 핵심 분야에서 널리 쓰이지만, AI 학습용 데이터가 부족해 코드 생성 성능이 떨어졌다. 연구진은 코드 수집 → 품질 평가 → 명세 생성의 전 과정을 자동화한 데이터 구축 시스템을 개발해, 약 4만 건의 고품질 C/C++ 특화 훈련 데이터셋을 확보했다.

이 데이터를 최신 AI 모델 4종에 적용한 결과, 모든 모델의 코드 품질이 향상되었으며, 훈련 데이터의 품질과 양이 AI 코드 생성의 핵심 요인임을 입증했다.

이번 기술은 개발자와 기업뿐 아니라 임베디드·자동차·로봇 등 산업 분야 종사자, 연구·교육 기관에서도 폭넓게 활용될 수 있다. 특히 코드 품질과 보안성이 중요한 산업 환경에서 개발 속도와 효율성을 동시에 확보할 수 있는 혁신적인 해법으로 평가된다.

ETRI는 현재 국내 주요 기업들과 PoC(개념 검증) 협력을 추진 중이며, 향후 3~4년 내 상용화를 목표로 하고 있다.

ETRI 정영준 온디바이스AI연구본부장은 “향후 산업 현장에서 실제 검증을 거쳐 다양한 프로그래밍 언어와 산업 특화 영역으로 기술을 확대 적용할 계획이다. 이를 통해 국내 소프트웨어 개발 생태계의 경쟁력 강화에 크게 기여할 것으로 기대된다.”라고 말했다.

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지