RAG 아키텍처를 활용한 LLM 문제 해결법

대규모 언어 모델(LLM)은 기존 콘텐츠에서 새로운 콘텐츠나 텍스트를 인식하고 생성할 수 있는 인공지능(AI) 솔루션의 한 유형이다. 2025년까지 디지털 작업의 50%가 이러한 LLM 모델을 통해 자동화될 것으로 추정된다.

LLM의 핵심은 대량의 콘텐츠와 데이터로 훈련되며, LLM의 아키텍처는 주로 순환 계층, 피드포워드 계층, 임베딩 계층, 어텐션 계층과 같은 여러 층의 신경망으로 구성된다. 이러한 계층들이 함께 작동하여 입력 콘텐츠를 처리하고 일관성 있고 맥락적으로 관련된 텍스트를 생성한다. 이러한 배경에서 대규모 언어 모델(LLM)과 생성AI라는 용어가 종종 혼용된다.

반면 생성AI는 텍스트뿐만 아니라 이미지, 오디오, 비디오를 포함한 새로운 콘텐츠를 생성하도록 설계된 더 넓은 범주의 AI 모델을 말한다.

오픈AI의 GPT-4, 구글의 제미니, 안트로픽의 클로드와 같은 LLM은 일반 인터넷 사용자들 사이에서 매우 인기를 얻었다. 특히 챗GPT와 같은 사용하기 쉬운 인터페이스를 통해 “미국의 첫 번째 대통령은 누구인가?”와 같은 질문에 빠른 답변을 얻을 때 더욱 그렇다.

그러나 “2022년에 발행된 구매 주문서의 데이터 품질 저하 비용의 달러 가치는 얼마인가?”와 같은 질문에 대해서는 훨씬 더 느리다.

그 이유는 무엇인가? 크게 보면 가능한 문제는 두 가지 주요 범주로 나눌 수 있다.

데이터 품질 문제

챗GPT와 제미니 같은 LLM은 커먼 크롤, 레딧 포럼, 스택 오버플로우, 위키피디아 등 공개 소스에서 수백 테라바이트의 데이터로 훈련되었다.

오픈AI의 GPT-3.5 모델의 크기는 약 1750억 개의 파라미터이다(GPT-4의 정확한 훈련 데이터 양과 파라미터 수는 오픈AI가 공식적으로 밝히지 않았다).

이는 거대한 모델이며, 이 크기의 데이터세트를 정확성, 시의성, 관련성에 대해 확인하고 정리하는 것은 거의 불가능하다. 이것은 낮은 데이터 품질로 이어지고 결국 환각이나 부정확한 응답을 초래한다. 이는 모든 기업 애플리케이션에서 중요한 문제이다. 어떤 기업도 조금이라도 부정확한 응답을 줄 수 있는 솔루션과 연관되고 싶어 하지 않을 것이다.

그러나 낮은 데이터 품질이 반드시 환각의 유일한 이유는 아니다. 이는 고품질 데이터(무엇이든)로만 모델을 훈련시키면 환각이 사라질 것이라는 의미가 된다. 환각은 LLM이 출력을 생성하는 데 사용하는 확률적 샘플링 프로세스의 결과이다. 모든 토큰이 확률 분포에서 샘플링되기 때문에 항상 무언가 ‘잘못될’ 가능성이 있다.

데이터 보안 및 개인정보 보호

오늘날 데이터는 전략적 의사결정, 제품 개발, 마케팅 전략 및 고객 참여에 중요한 역할을 한다. 또한 일반 데이터 보호 규정(GDPR), 건강보험 양도성 및 책임법(HIPAA), 캘리포니아 소비자 개인정보 보호법(CCPA)과 같은 엄격한 규정으로 인해 기업은 법적으로 개인 데이터를 보호해야 한다.

위반 시 심각한 재정적 처벌과 회사의 평판 및 브랜드 손상으로 이어질 수 있다.

전반적으로 오늘날 데이터는 기업에게 매우 가치 있는 비즈니스 자산이다. 기업은 이를 비공개로 유지하고 인터넷상의 모든 사람과 공유하지 않음으로써 보호하고자 한다.

이를 기업 환경에서 LLM 사용 예시와 연관지어 보면, 이러한 개인정보 보호 우려로 인해 이 귀중한 데이터의 상당 부분을 공개적으로 사용할 수 없었기 때문에 LLM 훈련 데이터에 포함되지 않았다는 점에 주목해야 한다. 이는 특정 기업 쿼리에 적용될 때 모델의 범위와 정확성에 직접적인 영향을 미친다.

이 두 가지 문제가 GPT-4와 같은 LLM으로 구동되는 간단한 HR 챗봇에 어떤 영향을 미치는지 살펴보자.

“내게 남은 휴가 일수는 몇 일인가?”와 같은 쿼리가 있다고 가정해보자.

이 쿼리(프롬프트라고 알려진)를 HR 챗봇에 입력한다. HR 챗봇은 오픈AI나 마이크로소프트가 제공하는 API를 통해 GPT-4 LLM에 연결된다. LLM은 쿼리를 이해하고 적절한 답변을 생성한다. LLM이 생성한 답변은 훈련된 정보의 종류를 기반으로 할 것이다.

예를 들어, 레딧 포럼에서 20일, 스택 오버플로우에서 19일, 노동부 웹사이트에서 18일, 위키피디아에서 17일 등의 수치를 보았을 수 있다. 이러한 유형의 정보를 바탕으로 LLM은 응답을 생성할 것이다.

예를 들어, 응답이 18일일 수 있는데, 이는 웹사이트가 지난 18개월 동안 업데이트되지 않아 부정확할 수 있다. 이러한 응답은 사용자들이 응답에 대한 신뢰를 잃게 만들 것이다.

이러한 방식으로 LLM을 배포하는 것은 많은 기업에게 너무 위험하다.

LLM 문제 해결법

이 문제를 해결할 수 있는 방법이 몇 가지 있다.

첫 번째는 ‘미세 조정(fine-tuning)’이다. 미세 조정은 LLM의 마지막 몇 개 계층을 가져와 회사가 게시하거나 노출한 특정 데이터 말뭉치에 대해 모델을 재훈련시킨다. 이 예에서는 휴가 정책이 유지되는 회사의 인사 정책 문서가 될 것이다.

기본적으로 LLM의 이전 계층은 대규모 사전 훈련 과정을 통해 일반적인 이해를 포착한다. 마지막 계층은 모델의 특정 출력과 결정을 담당하며 미세 조정이 적용되는 부분이다. 이 ‘마지막’ 계층들을 재훈련시키면 LLM이 새로운 또는 특정 작업이나 도메인에 대한 이해와 응답을 조정할 수 있다.

미세 조정의 주요 이점은 LLM의 사전 훈련된 언어 지식을 활용하고 더 많은 도메인 특화 지식을 추가한다는 것이다. 따라서 이제 LLM은 회사와 더 관련된 응답을 생성할 수 있다.

또한 미세 조정은 마지막 몇 개의 계층에 대해서만 수행되므로, LLM은 이 계층들이 주어진 작업에 더 특화될 것이기 때문에 새로운 작업의 뉘앙스를 효과적으로 학습할 수 있다.

그러나 미세 조정은 느리고, 비용이 많이 들며, 위험한 과정이다. 이를 수행하려면 상당한 컴퓨팅 능력과 전문가팀이 필요하다. 또한 정보나 소스 데이터가 변경되면 모델 관리가 문제가 되어 전체 비용이 많이 들고 느린 과정을 반복해야 한다.

결과적으로 미세 조정은 모델의 지식을 정기적으로 업데이트하는 것보다는 모델의 일관된 행동(예: 채팅 스타일로 질문에 답하기, 코드 생성 등)을 조정하는 데 더 효과적이다.

이러한 과제를 해결하기 위해 메타/페이스북의 연구원들이 RAG(검색 증강 생성) 접근법을 개발했다. RAG는 검색 메커니즘을 생성 모델과 통합하여 더 정확하고 상황에 맞는 응답을 가능하게 한다.

RAG는 LLM이 내부적으로 텍스트 콘텐츠를 전처리하는 방식과 유사하게 토큰화를 통해 콘텐츠나 지식 말뭉치를 처리하는 것으로 시작한다.

토큰화 과정에서 텍스트 콘텐츠는 토큰으로 변환되며, 이는 다시 수치 벡터(또는 임베딩)로 변환된다. 이러한 임베딩은 콘텐츠의 의미와 관계를 포착한다.

이 벡터들은 레디스(Redis)나 파인콘(Pinecone)과 같은 벡터 데이터베이스에 저장된다.

따라서 사용자가 “내게 남은 휴가 일수는 몇 일인가?”와 같은 쿼리를 제출하면 RAG 시스템은 벡터(임베딩) 데이터베이스를 활용한다. 시스템은 이 벡터 데이터베이스 내에서 유사성 검색을 수행하여 사용자의 쿼리 벡터와 저장된 문서 벡터를 비교한다. 벡터 비교를 기반으로 관련 문서나 데이터의 가장 유사한 부분을 검색한다.

기본적으로 ‘휴가’와 관련된 가장 관련성 있는 상위 n개의 문서나 정보 조각이 검색되며, 여기서 n은 RAG 설정에서 정의된 매개변수로 보통 5~10 사이로 설정된다.

검색된 문서 청크는 LLM에 맥락으로 전달된다. 쿼리와 검색된 문서(맥락)가 연결되어 LLM에 전송되어 최종 응답을 생성한다.

전체 RAG 프로세스의 간소화된 버전은 아래와 같다.

RAG는 기본적으로 자체 콘텐츠나 데이터에 대해 LLM을 활용하도록 설계되었다. 이는 생성 프로세스의 일부로 맥락이나 통찰력을 증강하기 위해 관련 콘텐츠를 검색하는 것을 포함한다.

그러나 RAG는 장단점이 있는 발전 중인 기술이다.

RAG는 전용, 맞춤형, 정확한 지식베이스에서 정보 검색을 통합하여 LLM이 일반적이거나 관련 없는 응답을 제공할 위험을 줄인다. 예를 들어, 지식베이스가 특정 도메인(예: 법률 회사의 법률 문서)에 맞춰져 있을 경우, RAG는 LLM에 관련 정보와 용어를 제공하여 응답의 맥락과 정확성을 향상시킨다.

동시에 RAG와 관련된 한계도 있다. RAG는 지식베이스에 저장된 정보의 품질, 정확성, 포괄성에 크게 의존한다. 불완전하거나 부정확하거나 누락된 정보 또는 데이터는 오해의 소지가 있거나 관련 없는 검색 데이터로 이어질 수 있다.

전반적으로 RAG의 성공은 품질 좋은 데이터에 달려 있다.

RAG 모델의 구현

RAG는 기본적으로 검색 모델과 생성 모델이라는 두 가지 주요 구성 요소를 가지고 있다.

검색 모델은 주어진 쿼리나 프롬프트와 관련된 정보를 포함할 가능성이 가장 높은 대규모 지식 말뭉치에서 관련 문서를 식별한다.

이 말뭉치에서 일관되고 맥락적으로 정확한 응답을 위해 콘텐츠의 의미론적 의미를 포착하는 벡터(또는 임베딩)가 생성된다.

시장에 여러 상용 및 오픈소스 RAG 플랫폼(랭체인, 라마인덱스, 애저 AI 검색, 아마존 켄드라, 아바커스 AI 등)이 있지만, 일반적인 RAG 모델 구현에는 다섯 가지 주요 단계가 있다.

① 검색기 훈련: 검색기 모델은 쿼리와 문서를 모두 벡터 데이터베이스로 인코딩하도록 훈련되며, 여기서 유사한 벡터도 포착된다.

② 문서 검색: 주어진 쿼리에 대해 검색기 모델은 쿼리를 벡터로 인코딩하고 벡터 유사성을 기반으로 말뭉치에서 상위 k개의 가장 유사한 문서를 검색한다.

③ 생성기 훈련: 생성기 모델은 쿼리와 검색된 문서로 구성되고 출력이 원하는 응답인 데이터세트를 사용하여 미세 조정된다. 이 훈련은 생성기가 검색된 문서에서 제공하는 맥락을 활용하여 정확하고 관련성 있는 응답을 생성하는 방법을 학습하는 데 도움이 된다.

④ 응답 생성: 추론 중에 주어진 쿼리에 대해 검색기가 먼저 상위 k개의 관련 문서를 가져온다. 이 문서들은 쿼리와 함께 생성기에 입력된다. 생성기는 쿼리와 검색된 문서의 결합된 입력을 기반으로 응답을 생성한다.

⑤ 통합 및 최적화: 검색기와 생성기는 검색기의 출력이 직접 생성기로 공급되는 단일 파이프라인으로 통합된다. 이 단계에서 검색기와 생성기는 전체 시스템 성능을 최적화하기 위해 공동으로 훈련될 수도 있다.

검색 기반 접근법과 생성 기반 접근법을 효과적으로 결합함으로써 RAG는 단독 LLM 모델에 내재된 많은 한계를 해결한다.

이 하이브리드 기술은 검색 단계에서 대규모의 다양한 데이터세트를 활용하여 모델이 더 정확하고 관련성 있으며 맥락이 풍부한 응답을 생성하는 능력을 향상시킨다. 동시에 RAG 자체는 많은 유망한 연구 영역을 가진 매우 역동적인 분야이다. RAG와 지식 그래프를 결합하면 특히 복잡한 기업 데이터에 대해 더욱 품질 높은 응답을 제공하는 것으로 보인다.

RAG는 검색과 생성 사이의 간극을 좁힘으로써 생성AI 시대에 더 미묘하고 영향력 있는 애플리케이션을 위한 지능적이고 맥락에 맞는 통찰력의 새로운 표준을 제시한다.

*필자 프라샨트 사우스칼(Prashanth H. Southekal)은 데이터 및 분석 컨설팅, 연구 및 교육 기업인 DBP 연구소(DBP-Institute)의 박사는 창립자이다. 그는 컨설턴트, 저자, 기조 연설자, 이사회 멤버, 데이터 및 분석 교수이다.

토비아스 츠빙만(Tobias Zwingmann)은 독일 AI 자문 회사인 RAPYD.AI의 공동 창립자이다. 그는 ‘AI-Powered Business Intelligence’의 저자이며, 기업 환경에서 15년 이상의 전문 경력을 가지고 있다.

아룬 마라르(Arun Marar)는 지도 학습 및 비지도 학습, 텍스트 분석, 자연어 처리, 딥러닝과 같은 광범위한 기술을 활용하여 AI/ML 모델을 구현하는 전문가이다.

(* 이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

프라샨트 사우스칼, 토비아스 츠빙만, 아룬 마라르

기자의 다른기사

상단영역

본문영역

RAG 아키텍처를 활용한 LLM 문제 해결법

검색 기반과 생성 기반 접근 방식의 결합

관련기사

본문영역

키워드

관련기사