대형 언어 모델(Large Language Model, LLM)은 최근 개발에 널리 사용되는 인공 신경망(알고리듬)이다. 이것은 인공지능(AI)의 다음 진화 단계인 챗GPT 개발에 중요한 역할을 했다. 생성AI는 대형 언어 모델과 결합돼 더 스마트해졌다.

LLM은 인공 신경망을 기반으로 하며, 최근 딥러닝의 개선으로 개발이 지원되고 있고 시맨틱 기술(시맨틱, 시맨틱 웹, 자연어 프로세스)도 사용한다.

LLM의 역사는 1883년 프랑스의 언어학자인 미셸 브레알(Michel Bréal)이 개발한 시맨틱의 개념에서 시작된다. 브레알은 언어가 구성되는 방식, 시간이 지남에 따라 언어가 어떻게 변하는 지, 언어 내에서 단어가 어떻게 연결되는지를 연구했다.

현재 시맨틱은 네덜란드어, 힌디어 등 인간을 위해 개발된 언어와 파이썬, 자바 등 인공 프로그래밍 언어에 사용된다.

그러나 자연어 처리는 인간의 의사소통을 컴퓨터가 이해할 수 있는 언어로 번역하고 다시 그 반대로 번역하는 데 중점을 둔다. 이는 인간의 지시를 이해할 수 있는 시스템을 사용해 컴퓨터가 텍스트를 이해하고, 음성을 인식하며, 컴퓨터와 인간 언어 사이를 번역할 수 있도록 한다.

자연어 처리가 시작되기 전에 거의 손실

1906년부터 1912년까지 페르디낭 드 소쉬르(Ferdinand de Saussure)는 제네바대학교에서 인도유럽어학, 일반언어학, 산스크리트어를 가르쳤다. 이 기간 동안 그는 시스템으로서 언어의 고도로 기능적인 모델의 기초를 개발했다.

그 후 1913년에 그는 자신의 작품을 정리하고 출판하기 전에 사망했다.

다행히 소쉬르의 동료이기도 했던 알베르 세슈에(Albert Sechehaye)와 샤를 바이(Charles Bally)는 소쉬르의 개념의 잠재력을 인식하고 그것이 저장할 만큼 중요하다고 결정했다. 두 강사는 소쉬르의 노트를 수집했고, 그의 학생들의 노트까지 모으기 위해 노력했다. 이를 바탕으로 그들은 1916년에 ‘일반언어학 강의(Cours de Linguistique Générale)’라는 제목으로 소쉬르의 책을 출판했다.

이 책은 과학으로서의 언어(Language as a Science)로 번역돼 구조주의적 접근의 기초를 마련했고 나중에는 자연어 과정의 토대가 됐다.

언어 번역의 필요성으로 자연어 처리 시작

1945년 제2차 세계대전이 끝난 후 자연어 처리 분야가 많은 주목을 받았다. 평화 회담과 국제 무역에 대한 열망은 서로를 이해하는 것의 중요성을 인식하게 했고, 언어를 자동으로 번역할 수 있는 기계를 만들겠다는 희망을 불러일으켰다.

언어 번역기를 만든다는 목표는 당연히 처음 생각했던 것만큼 쉽지 않았다.

그러나 인간의 언어는 혼란과 불규칙으로 가득 차 있지만, 수학의 언어는 그렇지 않다. 언어 번역기는 불변의 규칙을 사용해 수학에 꽤 효과적으로 적용될 수 있었다.

머신러닝과 체커 게임

IBM의 아서 사무엘(Arthur Samuel)은 1950년대 초에 체커 게임용 컴퓨터 프로그램을 개발했다. 그는 체커 게임 프로그램을 개선할 수 있는 여러 알고리듬을 완성했으며 1959년에 이를 ‘머신러닝’이라고 설명했다.

신경망을 사용한 마크 1 퍼셉트론

1958년에 코넬 항공연구소의 프랑크 로젠블랫(Frank Rosenblatt)은 헤브(Hebb)의 신경망 알고리듬 모델을 사무엘의 머신러닝 작업과 병합해 마크 1 퍼셉트론(Mark 1 Perceptron)이라는 최초의 인공 신경망을 만들었다.

여전히 언어 번역이 목표였지만 컴퓨터는 주로 수학적 목적으로 만들어졌다. 진공관으로 제작돼 계산기로 사용되는 이 거대한 컴퓨터는 제조된 것이 아니라 소프트웨어 프로그램과 마찬가지로 개별적으로 제작됐다.

퍼셉트론은 또한 IBM 704용으로 설계된 소프트웨어를 사용하고 유사한 컴퓨터가 표준화된 소프트웨어 프로그램을 공유할 수 있다는 점에서 독특했다.

하지만 불행하게도 마크 1 퍼셉트론은 다양한 종류의 기본 시각적 패턴(얼굴과 같은)을 인식할 수 없었기 때문에 기대가 무너지고 신경망 연구와 머신러닝이 중단됐다.

자연어 프로그래밍을 사용하는 엘리자

1966년 MIT 컴퓨터 과학자인 조셉 바이젠바움(Joseph Weizenbaum)은 NLP를 사용한 최초의 프로그램으로 설명되는 엘리자(ELIZA)를 개발했다. 이것은 수신된 입력에서 키워드를 식별하고 사전 프로그래밍된 답변으로 응답할 수 있다.

바이젠바움은 인간과 기계 사이의 통신이 근본적으로 피상적이라는 자신의 가정을 증명하려고 시도했지만 일이 계획대로 진행되지 않았다. 실험을 단순화하고 논쟁을 최소화하기 위해 그는 실제 정보를 저장하는 데이터베이스가 필요하지 않지만 대화를 진행하기 위해 사람의 진술을 다시 반영하는 ‘적극적 경청(active listening)’을 사용하는 프로그램을 개발했다.

그는 그의 비서를 포함한 사람들이 그 컴퓨터 프로그램이 인간과 같은 감정을 갖고 있다고 묘사하는 것에 놀랐다. 바이젠바움은 “내가 그 프로그램을 작업하는 것을 여러 달 동안 지켜보았기 때문에 그것이 단지 컴퓨터 프로그램일 뿐이라는 것을 확실히 알고 있던 나의 비서가 그 프로그램과 대화를 시작했다. 몇 번 대화를 나눈 후에 그녀는 나에게 방에서 나가달라고 요청했다”고 썼다. 또한 나중에 이렇게 덧붙였다. “나는 비교적 간단한 컴퓨터 프로그램에 극히 짧은 시간만 노출돼도 아주 평범한 사람들에게 강력한 망상적 사고를 유발할 수 있다는 사실을 깨닫지 못했다.”

엘리자의 원본 버전은 최근 오픈 소스가 됐다.

머신러닝은 별도의 산업으로 발전

1974년부터 1980년까지를 ‘AI의 첫 번째 겨울’이라고 한다. AI 연구자들은 매우 기본적인 두 가지 제한 사항, 즉 소량의 데이터 저장 용량과 고통스러울 정도로 느린 처리 속도를 처리해야 했다.

대부분의 대학들은 신경망 연구를 포기했고 AI와 머신러닝(ML) 사이에 분열이 발생했다. 이 분열 이전에는 ML이 주로 AI를 훈련하는 데 사용됐다.

그러나 여러 연구자들과 기술자들이 포함된 ML 산업은 별도의 분야로 재편됐다. 분열 이후 ML 산업은 신경망을 계속 사용하면서 확률 이론과 통계로 초점을 옮겼다. ML은 전화에 응답하고 자동화된 작업을 수행하는 데 사용됐다.

소형 언어 모델

최초의 (소형) 언어 모델의 개발은 1980년대 IBM에 의해 시작됐으며, 문장의 다음 단어를 예측하도록 설계됐다.

그들의 디자인에는 모델이 학습한 텍스트 내에서 특정 단어가 얼마나 자주 나타나는지 결정하는 ‘사전’이 포함돼 있다. 알고리듬은 다음 단어가 무엇이어야 하는지 통계적으로 다시 계산한다. 이 제한된 통계 모델은 챗GPT가 제공하는 창의성을 지원하지 않는다.

ML 및 연구 자금 수익과 결합된 NLP

1980년대 후반에는 컴퓨팅 능력이 크게 향상됐다. 또한 기계 알고리듬이 발전했고 자연어 처리에 혁명이 일어났다. 이는 컴퓨팅 성능의 꾸준한 증가와 ML 알고리듬으로의 전환이 모두 이루어진 결과였다. 1980년대 이전에는 대부분의 NLP 시스템이 복잡하고 손으로 쓴 규칙을 사용했다.

1990년대에는 속도와 인터넷을 통해 이동하는 텍스트의 엄청난 흐름으로 인해 NLP 분석을 위한 통계 모델의 사용이 극적으로 증가했다.

방대한 데이터 소스를 제공한 WWW

팀 버너스 리(Tim Berners-Lee)는 1989년에 월드 와이드 웹(World Wide Web)을 생각해냈고 1991년에 대중에게 공개했다. 월드 와이드 웹을 사용하면 대규모 도서관 모델이 연구를 위해 방대한 양의 데이터에 액세스할 수 있다.

월드 와이드 웹의 탄생으로 인터넷 검색이 가능해졌고 대형 언어 모델이 방대한 양의 정보에 접근할 수 있게 됐다. 월드 와이드 웹은 다양한 주제에 대한 정보를 생성, 저장, 검색, 공유할 수 있는 플랫폼을 제공한다.

1990년대 중반에 월드 와이드 웹은 온라인 쇼핑과 인터넷 ‘서핑’에 대한 관심을 증진시키며 인터넷 사용의 새로운 수준을 제시했다.

GPU와 대형 언어 모델

대형 언어 모델에는 수십억 개의 단어와 구문이 포함된 엄청난 양의 데이터 사용을 포함하는 복잡한 훈련이 필요하다. 대형 언어 모델을 훈련하는 것은 LLM 이해의 일부를 나타내는 각 퍼즐 조각을 사용해 대규모 직소 퍼즐의 개별 조각을 훈련하는 것으로 설명할 수 있다. GPU(그래픽 처리 장치)는 이러한 문제에 대한 솔루션을 제공한다.

GPU는 원래 컴퓨터 그래픽과 이미지 처리 속도를 높이기 위해 설계된 전자 회로다. GPU는 여러 데이터 조각을 동시에 처리할 수 있으므로 머신러닝, 게임 애플리케이션, 비디오 편집과 3D 그래픽에 매우 유용하다.

GPU의 메모리 용량과 속도가 향상되면서 정교한 언어 모델을 개발하는 데 큰 역할을 했다.

딥러닝과 대형 언어 모델

1990년대 딥러닝의 등장으로 더욱 발전된 언어 모델이 지원됐다. 대형 언어 모델은 엄청난 양의 데이터에 대해 사전 훈련된 매우 큰 딥 러닝 모델이다. 딥러닝은 신경망이기도 하지만 추가 계층이 있는 머신러닝의 한 형태다.

2011년부터 딥러닝이 대중화되기 시작했다. 2018년에는 사진부터 온라인 디테일까지 모든 산업에서 딥러닝 알고리듬이 사용됐다. 딥러닝 애플리케이션이 사용된 예로는 애플의 시리, 자동화된 약물 설계, 감정 분석을 위한 NLP 등이 있다.

생성적 적대 신경망(GAN)

2014년에 이안 굿펠로우(Ian Goodfellow)는 친구와의 대화에서 촉발된 생성적 적대 신경망(Generative Adversarial Neural Network)을 소개했다.

이 디자인은 게임에서 서로 대결하는 두 개의 신경망을 사용한다. 게임의 목표는 네트워크 중 하나가 사진을 모방해 상대방 네트워크가 그 모방이 진짜라고 믿도록 속이는 것이다. 상대방 네트워크는 사진이 진짜가 아니라는 결함을 찾는다. 사진이 완벽에 가까워 상대방을 속일 때까지 게임은 계속 진행된다.

더 스마트한 AI를 지원하는 대형 언어 모델

2022년 말, 오픈AI는 챗GPT를 출시함으로써 AI 세계를 극적으로 변화시켰다. 그들은 인간과 같은 일상적인 영어로 의사소통할 수 있고 새로운 소프트웨어 개발과 연설문 작성 등 광범위한 작업을 완료할 수 있는 강력하고 새로운 챗봇을 제공했다.

대형 언어 모델을 지원하는 생성AI는 챗봇에서 새로운 수준의 지능형 행동을 생성했다. 오픈AI의 ‘더 스마트해진 챗봇’은 연구, 좋은 글쓰기, 사실적인 이미지나 비디오 생성에 유용한 강력한 도구로 빠르게 자리 잡았다.

새로운 챗봇에 사용되는 오픈챗키트(OpenChatKit)라는 대형 언어 모델 디자인은 투게더 컴퓨터(Together Computer)에 의해 2023년 3월 10일에 오픈 소스로 공개됐다.

 

필자 키스 디 풋(Keith D. Foote)은 인공지능, 기계학습, 빅데이터, GDPR의 연구원, 작가 및 컨설턴트다. 그의 전문 분야는 데이터 과학에 기반한 물리와 비즈니스다.

(*이 칼럼은 GTT KOREA의 편집 방향과 다를 수 있습니다.)

관련기사

저작권자 © 지티티코리아 무단전재 및 재배포 금지