ChatGPT가 처음 공개됐을 때 많은 사람들이 받은 인상은 비슷했을 것입니다. "이게 정말 기계가 한 말인가?" 단순한 질문에 문맥에 맞는 답변을 내놓고, 글을 요약하고, 코드를 작성하고, 심지어 농담도 합니다. 이런 능력의 바탕에는 LLM(Large Language Model, 대형 언어 모델)이라는 기술이 있습니다. LLM이 정확히 무엇인지, 어떤 원리로 언어를 이해하고 생성하는지 살펴보겠습니다.

LLM이란 무엇인가

LLM은 Large Language Model의 줄임말로, 우리말로는 대형 언어 모델이라고 합니다. 이름에서 핵심이 드러납니다. 언어를 다루는 모델인데, 규모가 크다는 뜻입니다.

2편에서 살펴본 딥러닝 모델 중 트랜스포머 구조를 기반으로, 방대한 양의 텍스트 데이터를 학습한 모델을 LLM이라고 부릅니다. 학습에 사용되는 데이터의 양은 상상을 초월하는 수준입니다. GPT-4의 경우 수조 개의 단어 분량의 텍스트를 학습한 것으로 알려져 있으며, 모델 내부의 파라미터 수도 수천억 개에 달합니다. 파라미터는 2편에서 설명한 가중치에 해당하는 개념으로, 숫자가 클수록 더 복잡한 패턴을 표현할 수 있습니다.

현재 대표적인 LLM으로는 OpenAI의 GPT 시리즈, 구글의 Gemini, 메타의 LLaMA, 앤트로픽의 Claude 등이 있습니다. 각 모델은 구조와 학습 방식에서 차이가 있지만, 대규모 텍스트 학습을 통해 언어를 다루는 능력을 갖추고 있다는 공통점이 있습니다.

LLM은 언어를 어떻게 이해하는가

"이해한다"는 표현을 LLM에 적용하는 것이 적절한지에 대해서는 연구자들 사이에서도 논쟁이 있습니다. 다만 작동 방식을 살펴보면, LLM이 언어를 처리하는 방식이 꽤 정교하다는 것을 알 수 있습니다.

LLM의 핵심 작동 원리는 다음 토큰 예측입니다. 토큰(token)은 텍스트를 처리하는 단위로, 대략 단어나 단어의 일부에 해당합니다. LLM은 주어진 텍스트 다음에 올 토큰이 무엇일지 예측하도록 학습됩니다. "오늘 날씨가 많이" 다음에 올 말은 "춥다", "덥다", "흐리다" 등이 될 수 있는데, LLM은 앞선 문맥을 바탕으로 가장 적절한 다음 토큰의 확률을 계산합니다.

이 단순해 보이는 원리가 엄청난 양의 데이터와 결합되면, 문법 이해, 사실 정보 기억, 논리적 추론, 문체 모방 같은 복잡한 능력이 자연스럽게 나타납니다. 연구자들은 이를 "창발(emergence)"이라고 부르기도 합니다. 명시적으로 프로그래밍하지 않았는데 규모가 커지면서 새로운 능력이 나타나는 현상입니다.

트랜스포머와 어텐션 메커니즘

LLM의 구조적 토대인 트랜스포머를 이해하려면 어텐션(Attention) 메커니즘을 알아야 합니다. 어텐션은 문장 내 단어들 사이의 관계를 파악하는 방식입니다.

예를 들어 "그 은행은 강가에 있었다"라는 문장에서 "은행"이 금융 기관을 뜻하는지 강둑을 뜻하는지는 주변 단어들을 봐야 알 수 있습니다. 어텐션 메커니즘은 특정 단어를 처리할 때 문장 내 다른 단어들과의 연관성을 계산하여, 어느 단어에 더 집중해야 하는지 가중치를 부여합니다. "강가"라는 단어가 있다면 "은행"의 의미 해석에 높은 가중치를 받게 되는 방식입니다.

이 메커니즘 덕분에 트랜스포머는 문장이 길어져도 앞부분의 맥락을 잃지 않고 처리할 수 있습니다. 이전 구조인 RNN의 약점을 극복한 것으로, 2017년 구글의 논문 "Attention is All You Need"에서 제안된 이후 자연어 처리 분야의 표준 구조로 자리 잡았습니다.

LLM은 어떻게 학습되는가

LLM의 학습은 크게 두 단계로 나뉩니다. 사전 학습(Pre-training)과 파인튜닝(Fine-tuning)입니다.

사전 학습 단계에서는 인터넷, 책, 논문, 위키피디아 등 방대한 텍스트 데이터를 바탕으로 다음 토큰 예측 과제를 수행하며 언어의 일반적인 패턴을 학습합니다. 이 단계에서 엄청난 컴퓨팅 자원이 투입됩니다. GPT-4 수준의 모델을 사전 학습하는 데 드는 비용이 수백억 원대에 달한다는 추정도 있습니다.

파인튜닝 단계에서는 사전 학습된 모델을 특정 목적에 맞게 추가 학습합니다. ChatGPT의 경우 RLHF(인간 피드백을 활용한 강화학습)라는 방법이 적용됐습니다. 사람이 모델의 답변 중 더 좋은 것을 선택해 주면, 그 피드백을 바탕으로 더 유용하고 안전한 답변을 생성하도록 모델을 조정하는 방식입니다. 이 과정이 "도움이 되고 무해한" ChatGPT의 성격을 만드는 데 기여합니다.

학습 단계 내용 목적
사전 학습 대규모 텍스트로 언어 패턴 학습 언어 전반에 대한 일반 능력 확보
파인튜닝 특정 목적에 맞게 추가 학습 대화, 요약, 번역 등 특화 능력 강화
RLHF 인간 피드백 기반 강화학습 유용하고 안전한 응답 생성

LLM이 할 수 있는 것과 할 수 없는 것

LLM의 능력에 대해 과대평가와 과소평가가 동시에 존재합니다. 실제로 무엇을 잘하고 무엇에 한계가 있는지 알아두는 것이 이 기술을 올바르게 활용하는 첫걸음이 될 수 있습니다.

LLM이 비교적 잘하는 영역은 다음과 같습니다. 자연스러운 문장 생성, 문서 요약, 번역, 코드 작성 보조, 아이디어 브레인스토밍, 특정 형식의 글쓰기 등입니다. 방대한 텍스트에서 패턴을 학습했기 때문에 다양한 글쓰기 스타일을 모방하거나 특정 주제에 대한 설명을 생성하는 데 능숙한 편입니다.

반면 한계도 분명합니다. 가장 잘 알려진 문제는 환각(Hallucination) 현상입니다. LLM은 틀린 정보를 자신 있게 말하는 경우가 있습니다. 실제로 존재하지 않는 논문을 인용하거나, 잘못된 사실을 그럴듯한 문체로 서술하는 일이 발생합니다. 이는 LLM이 "사실을 검색하는 시스템"이 아니라 "그럴듯한 다음 토큰을 예측하는 시스템"이기 때문에 나타나는 구조적 특성으로 볼 수 있습니다.

최신 정보 접근의 한계도 있습니다. LLM은 학습 데이터의 시점 이후 정보를 알지 못합니다. 이를 지식 단절(knowledge cutoff)이라고 합니다. 최근에는 웹 검색 기능을 연동해 이 한계를 보완하는 방식이 많이 도입되고 있습니다.

LLM이 바꾸고 있는 것들

LLM의 등장은 단순히 새로운 도구가 생긴 것을 넘어, 다양한 산업의 작업 방식을 변화시키고 있습니다. 아직 초기 단계인 만큼 변화의 속도와 범위를 단정하기는 어렵지만, 이미 가시적인 영향이 나타나고 있는 영역들이 있습니다.

소프트웨어 개발 분야에서는 GitHub Copilot 같은 AI 코딩 보조 도구가 빠르게 확산되고 있습니다. 콘텐츠 제작 분야에서는 초안 작성, 번역, 편집 보조에 LLM이 활용되고 있습니다. 고객 서비스 분야에서는 기존 단순 규칙 기반 챗봇보다 훨씬 자연스러운 대화가 가능한 AI 상담 시스템이 도입되고 있습니다. 교육 분야에서도 개인 맞춤형 학습 보조 도구로 활용 범위가 넓어지고 있습니다.

정리하며

LLM은 트랜스포머 구조를 기반으로 방대한 텍스트를 학습한 대형 언어 모델입니다. 다음 토큰을 예측하는 원리로 작동하지만, 충분한 규모에서 문법 이해, 추론, 창작 같은 복잡한 능력이 나타납니다. 다만 환각 현상, 최신 정보 부재 등의 한계도 함께 가지고 있어, 이 기술을 활용할 때는 결과물을 그대로 신뢰하기보다 검토하는 습관이 필요합니다.