지난 15개월 동안 챗GPT가 대중에게 소개되고 출시된 이후 생성AI와 대형언어모델(LLM)에서 이루어진 진전이 헤드라인을 장식했다.

이러한 발전을 위한 기본 요소는 구글 연구팀이 ‘주의가 당신이 필요한 전부다.(Attention Is All You Need.)’라는 제목의 논문에서 설명한 트랜스포머 모델 아키텍처였다. 제목에서 알 수 있듯이, 모든 트랜스포머 모델의 주요 특징은 주의 메커니즘이다.

주의 기능은 쿼리와 키-값 쌍 세트를 출력에 매핑하는 것으로 설명할 수 있다. 여기서 쿼리, 키, 값, 출력은 모두 벡터다. 출력은 값의 가중치 합으로 계산되며, 여기서 각 값에 할당된 가중치는 해당 키에 대한 쿼리의 호환성 함수에 의해 계산된다.

생성AI 모델의 특징은 텍스트, 이미지, 오디오 파일, 비디오 파일 또는 입력의 조합(일반적으로 ‘멀티모달’이라고 함)으로 구성될 수 있는 데이터 입력의 대규모 소비다. 저작권의 관점에서 볼 때 중요한 질문은 교육 자료가 다양한 LLM 공급 업체에서 제작된 LLM에 유지되는지 여부다. 이 질문에 답하려면 텍스트 자료가 어떻게 처리되는지 이해해야 한다.

바비스 마르마니스 / CCC 수석 부사장 겸 CTO
바비스 마르마니스 / CCC 수석 부사장 겸 CTO

인간은 단어를 순서대로 배치함으로써 자연어로 의사소통한다. 단어의 순서와 특정 형태에 대한 규칙은 특정 언어에 따라 결정된다. 텍스트를 처리하는 모든 소프트웨어 시스템에 대한 아키텍처의 필수적인 부분은 시스템 기능이 가장 효율적으로 수행될 수 있도록 해당 텍스트를 표현하는 방법이다.

따라서 언어 모델에서 텍스트 입력을 처리하는 핵심 단계는 사용자 입력을 AI 시스템이 이해할 수 있는 특수 ‘단어’로 분할하는 것이다. 이러한 특별한 단어를 ‘토큰’이라고 한다. 그리고 이를 담당하는 구성 요소를 ‘토크나이저’라고 한다. 토크나이저에는 다양한 유형이 있다.

예를 들어, 오픈AI와 애저 오픈AI는 GPT(Generative Pretrained Transformer) 기반 모델에 BPE(Byte-Pair Encoding)라는 하위 단어 토큰화 방법을 사용한다. BPE는 특정 수의 토큰 또는 어휘 크기에 도달할 때까지 가장 자주 발생하는 문자 또는 바이트 쌍을 단일 토큰으로 병합하는 방법이다. 어휘 크기가 클수록 모델이 생성할 수 있는 텍스트는 더욱 다양하고 표현력이 풍부해진다.

AI 시스템은 입력 텍스트를 토큰에 매핑한 후 토큰을 숫자로 인코딩하고 처리한 시퀀스를 ‘단어 임베딩’이라고 하는 벡터로 변환한다. 벡터는 순서가 지정된 숫자 집합으로, 테이블의 행이나 열로 생각할 수 있다. 이러한 벡터는 텍스트로 제공된 원래의 자연어 표현을 보존하는 토큰의 표현이다.

임베딩은 전체 문장 또는 단락의 표현(또는 인코딩)을 형성하고 벡터 조합에서는 고차원 벡터 공간의 전체 문서까지 형성하기 때문에 저작권과 관련하여 단어 임베딩의 역할을 이해하는 것이 중요하다. AI 시스템은 이러한 임베딩을 통해 자연어에서 단어의 의미와 관계를 캡처하고 저장한다.

임베딩은 생성AI 시스템이 수행하는 텍스트 생성, 텍스트 요약, 텍스트 분류, 텍스트 번역, 이미지 생성, 코드 생성 등 거의 모든 작업에 사용된다. 단어 임베딩은 일반적으로 벡터 데이터베이스에 저장되지만 사용 중인 공급업체, 프로세스 및 방식이 매우 다양하다.

거의 모든 LLM은 주의 메커니즘을 호출하는 트랜스포머 아키텍처를 기반으로 한다. 후자를 통해 AI 기술은 단순한 문자 시퀀스가 ​​아닌 전체 문장, 심지어 단락까지 전체적으로 볼 수 있다. 이를 통해 소프트웨어는 단어가 발생할 수 있는 다양한 문맥을 캡처할 수 있으며 이러한 문맥은 저작권이 있는 저작물을 포함해 교육에 사용되는 저작물에 의해 제공되므로 임의적이지 않다.

이런 방식으로 단어의 원래 사용, 원작의 표현이 AI 시스템에 보존된다. 이는 복제와 분석이 가능하며 새로운 표현의 기초를 형성할 수 있다.

LLM은 교육을 받은 원본 작품의 표현을 유지한다. 이는 특별히 제작된 벡터 공간에서 텍스트의 내부 표현을 형성하고, 트리거로 적절한 입력이 주어지면 훈련에 사용된 원본 작업을 재현할 수 있다.

AI 시스템은 기반이 되는 LLM을 교육하는 데 사용되는 저작권 보호 콘텐츠를 포함한 콘텐츠로부터 영구적인 이점을 얻는다. LLM은 원본 저작물의 단어 표현을 기반으로 단어의 맥락을 인식한다. 그리고 이러한 맥락은 훈련에 사용되는 수천 또는 수백만 개의 저작권이 있는 저작물에 걸쳐 AI 시스템에 이점을 제공한다. 이러한 원본 저작물은 저작권 보호 저작물의 벡터(원래의 자연어 표현을 보존하는 토큰의 벡터 공간 표현)에 저장되기 때문에 AI 시스템에 의해 다시 생성될 수 있다.

따라서, 저작권 관점에서 LLM에 교육 자료가 유지되는지 여부를 결정하는 것이 문제의 핵심이며 그 질문에 대한 대답은 ‘예’다.

 

필자 바비스 마르마니스(Babis Marmanis) 박사는 CCC의 모든 소프트웨어 시스템의 기술 비전을 정의하는 책임을 맡고 있다. 그는 지속적인 기술 혁신과 고품질 소프트웨어 시스템 제공에 대한 열정을 갖고 글로벌 전문가팀을 이끌고 있다. 바비스는 지출 분석 및 지능형 웹 알고리듬이라는 책을 집필했으며 저널, 컨퍼런스, 기술 잡지 등에 기고하고 있다.

(*이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지