기술 업계의 거의 모든 사람들은 생성AI가 비즈니스 세계에 지대한 영향을 미칠 것이라는 데 동의한다. 하지만 그 변화가 언제 일어날지, 그리고 생성AI가 어떻게 수익성 향상에 활용될지에 대해서는 의견이 분분하다.

2023년 후반 AWS(Amazon Web Services)가 최고 데이터 책임자들을 대상으로 실시한 조사에 따르면, 80%는 생성AI가 조직의 비즈니스 방식을 근본적으로 변화시킬 것이라고 답했다. 그러나 현재 데이터 이니셔티브를 이 기술로 완전히 대체할 준비는 되어 있지 않다. 응답자의 46%는 데이터 품질이 낮고 최적의 사용 사례를 찾기 어렵기 때문이라고 말했다.

하버드 비즈니스 리뷰(Harvard Business Review)는 생성AI가 기업에 가치를 ‘생성’하려면 AI 공급업체의 언어 모델과 이미지 모델을 맞춤화할 수 있어야 한다고 지적한다. 이를 위해서는 기업들이 내부 프로세스를 업데이트하여 데이터가 생성AI 시스템에 적합한 상태로 준비되어야 한다.

그러나 AWS 조사에 따르면 응답자의 57%가 아직 생성AI에 대비하기 위해 기업의 데이터 전략을 바꾸지 않은 것으로 나타났다. 93%는 그렇게 하는 것이 이 기술의 가치를 실현하는 데 중요하다는 데 동의한다. 전통적인 분석과 기계 학습 애플리케이션에서 생성AI로 전환이 더딘 이유가 무엇이든 간에, 기업이 이 기술에 빨리 대비할수록 그 혜택을 더 빨리 누릴 수 있다는 것은 부인할 수 없다.

대규모 언어 모델에서 사용할 데이터 준비

생성AI는 비정형 데이터에 의존한다. 비정형 데이터란 구조화된 데이터베이스에 저장되지 않은 대규모 파일 또는 데이터 세트를 말한다. 이미지, 비디오, 오디오, 센서 데이터뿐만 아니라 텍스트 데이터와 기타 표준 형식도 포함된다. 생성AI 언어 모델에서 사용하기 위해 비정형 데이터를 선별하는 프로세스는 여전히 인간의 노력에 의존한다.

⦁테크스팟(TechSpot)에 따르면 오픈AI는 챗GPT에 사용할 데이터를 준비하기 위해 1000명의 원격 계약직 직원을 고용했다.

⦁하버드 비즈니스 리뷰는 모건스탠리 증권회사가 자사 대규모 언어 모델(LLM)에 사용할 문서를 평가하기 위해 필리핀에서 약 20명의 지식 근로자 그룹을 고용했다고 전했다.

특정 목적에 맞게 대규모 언어 모델을 미세 조정하면 정확도가 높아지고 사용자와의 상호작용이 특화되지 않은 모델보다 시의적절해진다. 더 정확한 모델 학습에는 다음과 같은 여러 단계가 필요하다.

⦁다양한 주제와 스타일의 광범위한 텍스트 데이터로 학습된 LLM에서 시작한다.

⦁법률 및 의료 사건에서 조사 문서 분석 또는 특정 주제에 대한 자연어 질문 응답 등 대상 도메인과 과제 범위를 정의한다.

⦁언어, 컨텍스트, 기존 데이터 소스의 관련 콘텐츠 식별 측면에서 데이터세트가 도메인을 나타내는지 확인한다.

⦁관련 없거나 손상된 데이터를 제거하고 익명화하며, 텍스트를 의미 있는 단어와 문구로 분리하여 토큰화한다.

⦁테스트 결과에 따라 가중치를 조정할 수 있도록 선택한 도메인에 집중해 학습한다. 학습 데이터를 사용하는 대신 새로운 데이터세트로 테스트하여 데이터를 정규화한다.

⦁평가, 테스트, 반복 작업을 거쳐 대상 사용자의 일반적인 사용을 위한 배포 과정으로 이어간다.

전문 분야별 LLM은 법률, 의료, 금융 서비스 등 전문 지식과 높은 수준의 정확성이 요구되는 고도로 규제된 분야에서 더욱 효과적이다.

법률 사례에서 생성AI의 잠재적 활용 분야로는 컴플라이언스 및 규제 모니터링, 계약 분석 및 협상, 문서 초안 작성 및 검토, 기업 거래에서의 실사, 지적 재산권 관리, 법률 리서치 등이 있다.

의료 분야에서 생성AI는 일상적인 환자 정보 수집, 진단 절차 강화, 웨어러블 진단 기기 발전을 활용한 치료 후 모니터링 등에 활용될 수 있다. 하지만 책임 및 배상 문제, 환자의 의료 서비스 제공자 신뢰 및 인간 간병인 필요성에 대한 우려로 인해 실제 의료 치료에는 사용되기 어려울 것으로 보인다.

금융 서비스 산업에서 생성AI는 기업의 위험 완화와 효율성 개선을 돕는다. 금융 서비스를 위한 전문 분야별 LLM의 사용 사례로는 사기 탐지 및 예방, 위험 평가 및 신용 평가, 맞춤형 고객 상호 작용 등이 있다. 또한 투자 관리자가 자산 배분 의사 결정과 시장 및 트렌드 분석을 하는 데 생성AI가 도움이 된다.

이 외에도 AI 기반 챗봇이 고객의 구매 이력과 선호도를 알고 있어 판매 분야에서도 활용될 수 있다, 또한 코드 자동 완성, 코드 주석 및 제안, 코드 리뷰를 포함한 코드 생성이 생성AI 전문 분야별 모델의 혜택을 받을 것으로 예상되는 산업들이다.

대규모 언어 모델을 위한 데이터 수집

LLM은 엄청난 양의 데이터를 필요로 한다. 이는 텍스트 데이터를 위한 웹 스크래핑, 전처리, 기계 학습 모델에서 사용하기 위한 원시 데이터 준비를 위한 특징 엔지니어링 등 다양한 방법으로 수집된다. LLM을 위한 데이터 수집은 다양한 데이터 소스와 데이터 유형을 수용해야 하며, 모델에서 소화할 수 있도록 하기 위해 수집되기 전에 모든 데이터를 조건화해야 한다.

데이터 수집의 4가지 단계인 데이터 수집, 전처리, 특징 엔지니어링, 스토리지 각각은 수집 시점에서 관련성을 보장하고, 모델이 쉽게 접근할 수 있는 형식으로 저장하는 것까지 LLM 개발팀에게 과제를 안긴다.

⦁데이터 수집: 수집할 데이터를 지정하기 전에 개발자는 LLM이 의도한 목적을 달성하기 위해 어떤 유형의 데이터가 필요한지 결정해야 한다. 예를 들어 감성 분석을 위해 학습되는 모델은 리뷰, 댓글, 소셜 미디어 게시물 등의 데이터가 필요하다.

모델의 데이터 요구사항이 정의되면 개발자는 웹 스크래핑을 사용하여 웹사이트에서 자동으로 데이터를 추출한다. 대규모 언어 모델을 위한 웹 스크래핑 도구로는 파이썬의 BeautifulSoup와 Requests 라이브러리, ScraPy 프레임워크, Selenium, Ixml Python 라이브러리, 랭체인(LangChain) 등이 있다.

⦁전처리: 이 단계에서는 수집한 데이터를 모델 학습에 사용할 수 있도록 준비한다. 정제, 정규화, 토큰화 등 3가지 작업이 수행된다.

데이터 정제는 부정확하거나 불완전하거나 관련 없는 데이터를 식별한 후 데이터를 수정하거나 제거한다. 중복 데이터 제거 외에도 누락된 정보를 채우고, 잘못된 값을 업데이트하며, 이상치를 제외한다.

정규화는 데이터를 표준 형식으로 변환하여 모델이 비교 및 분석할 수 있도록 한다. 텍스트 데이터를 정규화하면 대문자를 소문자로 바꾸고 구두점을 제거하는 등 데이터 차원을 줄여 모델의 데이터 처리 능력을 향상시킨다.

토큰화는 텍스트를 LLM의 어휘가 되는 단어와 구문으로 분해한다. 이를 통해 단어, 문자, 하위 단어 수준에서 의미 있는 어휘 요소를 식별함으로써 자연어 처리 애플리케이션을 촉진한다.

⦁특징 엔지니어링: 데이터를 전처리한 후에는 이를 활용하여 모델이 이해할 수 있는 텍스트의 수치 표현인 특징을 생성한다. 워드 임베딩은 특징 엔지니어링의 한 형태로, 숫자가 표현하는 단어의 의미를 포착하는 조밀한 실수 벡터를 만든다.

특징 엔지니어링에는 분할, 확대, 인코딩의 3단계가 있다.

분할(Split)은 데이터를 대규모 언어 모델 학습에 사용되는 훈련 세트와 모델 성능 평가에 적용되는 검증 및 테스트 세트로 나눈다.

확대(Augment)는 새로운 예제와 데이터를 추가하고 기존 데이터를 변환하여 데이터의 다양성을 높이고 모델에 제공되는 데이터 양을 늘린다.

인코딩(Encode)은 데이터를 모델이 이해할 수 있는 형태인 벡터로 임베딩하고, LLM이 처리하는 기본 데이터 단위인 토큰으로 만든다.

⦁스토리지: 모델 특징이 생성되면 LLM이 학습 시 쉽게 접근할 수 있는 형식으로 저장되어야 한다. 일반적으로 벡터 데이터베이스가 사용되며, 초저지연 쿼리와 구조화/비정형 데이터 모두를 지원한다.

데이터 준비의 장애물

데이터 전문가들은 생성AI 시스템 구현의 기술적, 운영적 과제에 초점을 맞추지만, 기업은 이 기술의 윤리적, 사회적 영향과 규제 및 법적 문제도 해결해야 한다. 잠재적 해결책으로는 윤리적 AI 프레임워크 채택, 연합 학습 및 차등 프라이버시, 오픈소스 프로젝트와 협업 등이 있다.

생성AI를 위한 데이터 준비와 관련된 기술적 과제로는 데이터 준비, LLM 크기, 검색 증강 생성, 데이터 사일로 해체 등이 있다.

⦁데이터 준비 부족: 데이터 익명화는 의료 및 금융 애플리케이션에 특히 중요하지만 조직의 책임을 줄이고 컴플라이언스 요구 사항을 충족시키는 데에도 도움이 된다. 데이터 라벨링은 NLP 및 기타 용도를 위해 컨텍스트, 감정 등의 특징을 식별하는 주석 형태이다. 정규화는 모델 성능 향상 및 스토리지 요구 사항 감소를 위해 이미지 크기, 해상도를 포함한 모든 형태의 데이터에 적용된다.

⦁적절한 크기의 LLM 찾기: 더 작은 모델은 리소스 소비를 줄이고 모델의 효율성, 정확성, 배포 용이성을 향상시킨다. 조직은 개념 증명을 위해 대규모 모델로 시작한 후 모델 결과가 정확한지 테스트하며 점차 크기를 줄일 수 있다. 상세하고 간결한 프롬프트 작성, 프롬프트 내 예시 추가(몇 번의 프롬프트)로 모델 크기를 제한할 수 있다.

⦁검색 증강 생성: 이 AI 프레임워크는 외부 지식 소스를 통해 LLM의 내부 정보 표현을 보완한다. 이를 통해 최신 정보를 유지하고 결과 정확성을 확인할 수 있다. 검색 증강 생성의 목표는 모델이 문제에 부딪혔을 때 ‘모른다’고 말하도록 가르치는 것이다.

⦁데이터 사일로 극복: 데이터 사일로로 인해 모델에 필요한 데이터 발견이 어려워지고 불완전한 데이터세트가 사용되며 부정확한 보고가 이뤄지고 데이터 관리 비용이 상승한다. 데이터 사일로 방지를 위해 단절된 데이터 식별, 데이터 거버넌스 프레임워크 구축, 팀 간 협업 촉진, 데이터 소유권 확립이 필요하다.

기업들이 생성AI 노력을 강화하기 위해 데이터 인프라의 격차를 메우는 데 도움이 되는 여러 기술이 있다. 여기에는 텍스트 생성을 위한 앤트로픽(Anthropic) 및 미스트랄(Mistral)과 같은 API, 이미지 생성을 위한 아마존 타이탄(Amazon Titan)과 같은 API, 음성 생성을 위한 일레븐랩스(ElevenLabs)와 같은 API가 포함된다. 생성AI 인프라를 위한 기타 도구로는 웹훅, 데이터 큐브, 데이터 모델링, 데이터 스코어링 등이 있다.

조직들은 생성AI 프로젝트를 개념 증명 단계에서 기업 전반에 걸쳐 전면 배치하는 단계로 전환하면서 계속해서 발전하고 있다. AI의 영향을 직원과 내부 이해관계자에게 준비시키는 것 외에도, 데이터가 비즈니스 혁신을 주도할 수 있도록 준비하는 데 더욱 노력을 기울여야 한다.

 

(* 이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지