LLM 만들기: GPT와 Claude 뒤에 숨겨진 5단계 파이프라인 완전 정복

ChatGPT를 처음 써봤을 때 드는 생각이 있으시죠. "도대체 이게 어떻게 이렇게 대답을 잘 하는 거지?" 저도 처음엔 그랬어요. 그냥 엄청난 양의 텍스트를 학습시켰겠지 정도로만 생각했는데, 실제로 파고들어 보니 그게 전부가 아니더라고요.

LLM 만들기는 단순히 데이터를 모아서 학습시키는 일이 아닙니다. 사전훈련, 데이터 정제, 스케일링 법칙 설계, 후훈련(RLHF/DPO), 그리고 평가와 시스템 최적화까지 총 5단계의 정교한 파이프라인이 필요해요. GPT와 Claude 같은 최신 모델들이 어떤 과정을 거쳐 탄생하는지, 이번 글에서 처음부터 끝까지 풀어드릴게요.

Stage 1 — 사전훈련(Pretraining): 언어를 이해하는 기초 다지기

LLM 파이프라인의 첫 번째 단계는 **사전훈련(Pretraining)**이에요. 이 단계에서 모델은 말 그대로 "언어가 무엇인지"를 배웁니다.

핵심 원리: 다음 토큰 예측

사전훈련의 핵심은 **자기회귀 언어 모델링(autoregressive language modeling)**이에요. 쉽게 말하면, "지금까지 나온 단어들을 보고 다음 단어를 맞추는 게임"을 수백억 번 반복하는 거예요.

"오늘 날씨가 ___" 라는 문장이 있으면 모델은 "맑다", "흐리다", "춥다" 중 어떤 단어가 올 가능성이 높은지 확률을 계산합니다. 이걸 수조 개의 텍스트에 걸쳐 반복하다 보면 문법, 사실, 추론 능력이 자연스럽게 생겨나요.

Transformer와 BPE 토크나이저

모델 구조는 2017년 논문 "Attention is All You Need"에서 소개된 Transformer 아키텍처를 사용해요. 셀프 어텐션(self-attention) 메커니즘 덕분에 문장 내 먼 거리에 있는 단어들 사이의 관계도 잘 포착하죠.

텍스트를 모델에 입력하기 전에는 BPE(Byte-Pair Encoding) 토크나이저로 단어를 더 작은 단위로 쪼갭니다. "unhappy"를 "un" + "happy"로 나누는 식이에요. 이렇게 하면 처음 보는 단어도 부분 단위로 처리할 수 있어서 어휘 커버리지가 훨씬 넓어집니다.

사전훈련만으로는 아직 질문에 대답하거나 지시를 따르는 모델이 아니에요. 그냥 "다음 단어를 잘 예측하는 모델"일 뿐이죠. 그게 왜 중요한지는 나중에 후훈련 단계에서 설명할게요.

Stage 2 — 데이터 파이프라인: 양보다 질이 결정적인 이유

"데이터가 많으면 좋다"는 말은 맞지만, 아무 데이터나 넣으면 오히려 망가집니다. 두 번째 단계인 데이터 파이프라인이 그래서 중요해요.

Common Crawl: 인터넷을 통째로 긁어 모으다

대부분의 대형 LLM은 Common Crawl을 기반으로 해요. Common Crawl은 비영리 단체가 운영하는 프로젝트로, 2026-05-27 현재 기준으로 3,000억+ 페이지의 웹 텍스트 아카이브를 보유하고 있어요. 인터넷의 스냅샷을 주기적으로 수집해서 공개하는 거예요.

하지만 인터넷 그대로가 학습 데이터가 될 수는 없어요. 스팸, 혐오 표현, 중복 콘텐츠, 광고 HTML이 뒤섞여 있거든요.

6단계 데이터 정제 파이프라인

실제로 사용되는 데이터 필터링 과정은 이런 식이에요:

HTML 추출 — 원시 HTML에서 텍스트만 뽑아냄
NSFW 필터링 — 부적절한 콘텐츠 제거
중복 제거(Deduplication) — 동일하거나 유사한 텍스트 삭제 (MinHash 알고리즘 등 활용)
휴리스틱 필터링 — 너무 짧거나 특수문자가 많은 텍스트 제거
모델 기반 필터링 — 품질 분류 모델로 저품질 텍스트 추가 제거
데이터 믹싱 — 웹 텍스트, 코드, 책, 논문 등 도메인 비율 조정

이 과정을 거치고 나면 원시 데이터의 상당 부분이 걸러지지만, 남은 데이터의 품질은 훨씬 높아집니다. GPT-3 논문에서도 이 필터링 과정이 성능에 결정적인 역할을 했다고 밝히고 있어요.

데이터 믹싱 비율도 중요한 설계 결정이에요. 코드 데이터를 얼마나 넣느냐에 따라 코딩 능력이 크게 달라지고, 수학 데이터를 얼마나 포함하느냐가 추론 능력에 영향을 줍니다.

Stage 3 — 스케일링 법칙: 얼마나 크게, 얼마나 오래 학습시킬까

"모델을 얼마나 크게 만들어야 하지? 데이터는 얼마나 필요해?" — 이 질문에 체계적으로 답하는 게 세 번째 단계인 **스케일링 법칙(Scaling Laws)**이에요.

Chinchilla 스케일링 법칙: 20 토큰/파라미터

2022년 DeepMind 연구팀은 "Chinchilla" 논문에서 중요한 발견을 했어요. 모델 크기와 학습 데이터 양을 어떻게 배분하는 게 가장 효율적인지 실험으로 보여줬거든요.

결론은 파라미터 1개당 약 20개의 토큰을 학습시키는 게 훈련 비용 대비 최적이라는 거예요. 70B 파라미터 모델이라면 약 1.4조(1.4T) 토큰이 필요한 셈이죠.

GPT-3는 이 비율에서 크게 벗어났고, 그 결과 모델 크기에 비해 과소학습된 상태였어요. Chinchilla 논문은 이걸 지적하며 "더 작은 모델을 더 많은 데이터로 학습시키는 게 더 효율적"이라는 걸 보여줬습니다.

추론 최적화 스케일링: 150+ 토큰/파라미터

그런데 2026년 현재 업계 기준은 Chinchilla의 "20 토큰/파라미터"를 훨씬 넘어서고 있어요. Meta의 Llama 시리즈나 DeepSeek 같은 모델들은 이 비율을 훨씬 초과해서 학습시킵니다.

왜냐하면 Chinchilla 법칙은 훈련 비용 최적화 기준이지, 추론 비용 최적화 기준이 아니기 때문이에요. 실제 서비스에서는 모델을 수백만 번 사용하는데, 이때는 작은 모델을 충분히 학습시키는 게 더 경제적이거든요. 최신 연구에서는 상황에 따라 파라미터당 150+ 토큰 이상 학습시키는 "오버트레이닝(overtrain)"이 표준이 되고 있어요.

The Bitter Lesson: 결국 규모가 이긴다

AI 연구자 Rich Sutton은 2019년 "The Bitter Lesson"이라는 글에서 이렇게 말했어요. "AI 역사에서 결국 승리한 접근법은 항상 스케일(계산량)을 활용한 방법이었다."

이 교훈은 오늘날에도 유효합니다. 정교한 아키텍처 설계보다 더 많은 컴퓨팅과 더 많은 데이터가 결국 성능을 결정하는 경우가 많아요.

DeepSeek-V3(2024-12-26, arXiv:2412.19437)는 이걸 잘 보여줍니다. 671B 전체 파라미터 중 활성화되는 건 37B뿐인 MoE(Mixture of Experts) 구조로, 14.8T 토큰을 학습해서 뛰어난 성능을 달성했어요.

Stage 4 — 후훈련(Post-training): 대화할 수 있는 AI로 변신

사전훈련을 마친 모델은 텍스트를 잘 예측하지만, "사용자 질문에 친절하게 답하는 AI"는 아니에요. 네 번째 단계인 **후훈련(Post-training)**이 그 변신을 담당합니다.

SFT: 지시 따르기 기초 교육

**SFT(Supervised Fine-Tuning, 지도 미세조정)**는 사람이 작성한 질문-답변 쌍으로 모델을 추가 학습시키는 과정이에요.

스탠퍼드 연구팀의 Alpaca 프로젝트는 GPT-3.5를 활용해 52,000개의 지시-응답 쌍을 생성하고, 이걸로 LLaMA를 파인튜닝해서 놀라운 성능을 보여줬어요. 적은 데이터로도 모델이 "대화 형식"을 학습할 수 있다는 걸 증명한 사례죠.

RLHF: 사람의 선호를 학습하다

하지만 SFT만으로는 부족해요. "더 도움이 되는 답변"이 뭔지, "더 안전한 답변"이 뭔지를 정량화하기 어렵거든요. **RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)**는 이 문제를 해결합니다.

RLHF는 세 단계로 진행돼요. 먼저 사람이 두 개의 답변을 비교해서 어떤 게 더 나은지 라벨링합니다. 그 데이터로 "보상 모델(Reward Model)"을 학습시켜요. 그 보상 모델의 점수를 최대화하도록 강화학습으로 언어 모델을 업데이트합니다. InstructGPT, ChatGPT, Claude 모두 이 방식을 활용했어요.

DPO: RLHF의 복잡함을 단순화

최근에는 **DPO(Direct Preference Optimization)**가 많이 쓰이고 있어요. 별도의 보상 모델 없이 선호 데이터를 직접 언어 모델 학습에 활용하는 방법이에요. RLHF보다 구현이 간단하고 학습이 안정적이라는 장점이 있어요.

2026년 트렌드: 테스트 타임 컴퓨팅

2026년 현재 가장 주목받는 후훈련 트렌드는 테스트 타임 컴퓨팅(test-time compute) 스케일링이에요. OpenAI의 o1/o3, Anthropic의 Claude Thinking 모드가 대표적인 사례예요. 답변을 생성할 때 더 많은 계산을 투입해서 더 깊은 추론을 수행하는 방식이죠. 훈련 시간뿐 아니라 추론 시간에도 스케일링이 적용되는 새로운 패러다임입니다.

Stage 5 — 평가 & 시스템 최적화: 성능을 측정하고 배포하다

LLM 만들기의 마지막 단계는 평가와 시스템 최적화입니다. 모델이 실제로 얼마나 잘 작동하는지 측정하고, 실용적으로 배포할 수 있도록 최적화하는 과정이에요.

퍼플렉시티(Perplexity): 언어 모델링 품질의 기본 척도

가장 기본적인 언어 모델 평가 지표는 **퍼플렉시티(Perplexity)**예요. 간단히 말하면 "모델이 텍스트를 얼마나 잘 예측하는가"를 수치로 나타낸 거예요. 퍼플렉시티가 낮을수록 모델이 텍스트를 더 잘 예측한다는 뜻이에요. 최신 LLM들은 이전 세대 모델들에 비해 퍼플렉시티가 크게 개선됐어요.

MMLU와 벤치마크의 한계

**MMLU(Massive Multitask Language Understanding)**는 57개 과목에 걸친 객관식 문제 세트로, LLM 평가에 널리 쓰이는 벤치마크예요. 물리, 화학, 역사, 법학, 의학 등 다양한 도메인을 다루죠.

그런데 MMLU에는 중요한 한계가 있어요. 프롬프트 형식을 어떻게 바꾸느냐에 따라 점수가 최대 76포인트 차이가 날 수 있어요. 같은 모델인데 질문 방식만 달라졌는데도 점수가 크게 달라진다는 거죠. 이는 LLM 평가가 얼마나 까다로운 문제인지 보여줍니다.

그래서 단일 벤치마크보다 HELM(Holistic Evaluation of Language Models) 같은 종합 평가 프레임워크가 더 신뢰할 수 있어요. HELM은 다양한 과제와 측면을 종합적으로 평가합니다.

Chatbot Arena: 사람이 직접 평가하다

가장 신뢰도 높은 평가 방식 중 하나는 Chatbot Arena예요. 두 모델의 답변을 사람이 직접 비교해서 어떤 게 더 나은지 투표하는 방식이에요.

2026-05-27 현재 기준으로 600만+(6M+) 투표와 316개 이상의 모델이 등록되어 있어요. AlpacaEval 리더보드와 0.98의 스피어먼 상관관계를 보여 신뢰성도 검증됐습니다.

시스템 최적화: 실용적으로 배포하기

아무리 좋은 모델이라도 실제로 배포하려면 시스템 최적화가 필요해요.

FlashAttention: 기존 어텐션 대비 1.7배 빠른 메모리 효율적 어텐션 알고리즘
bf16 정밀도: 32비트 대신 16비트 정밀도로 연산해서 메모리와 계산량을 절반으로 줄임
ZeRO 옵티마이저: 모델 상태를 여러 GPU에 분산해서 메모리 효율을 극대화
모델 병렬화: 파이프라인 병렬화(레이어별 분산)와 텐서 병렬화(레이어 내 분산) 조합

참고로 7B 파라미터 모델을 FP32(32비트)로 완전히 로드하려면 약 112GB 메모리가 필요해요. bf16 사용 시 약 14GB로 줄어들고, 4비트 양자화를 적용하면 7GB 수준까지 내릴 수 있어요.

MoE(Mixture of Experts) 아키텍처도 시스템 최적화의 핵심이에요. 총 파라미터 중 일부만 활성화해서 계산 효율을 높이는 방식이에요. DeepSeek-V3가 671B 전체 파라미터 중 37B만 활성화해서 효율을 높인 게 대표적 사례죠.

LLM 만들기에서 흔히 하는 실수 5가지

이론을 배웠으니, 실제로 LLM을 만들 때 자주 빠지는 함정들도 알아두면 좋아요.

1. 데이터 품질을 무시하고 양만 쫓기 아무리 데이터가 많아도 품질이 낮으면 오히려 성능이 떨어져요. 6단계 필터링 파이프라인처럼 데이터 정제가 핵심입니다.

2. Chinchilla 법칙을 무조건 따르기 훈련 효율 최적화와 추론 비용 최적화는 달라요. 실제 서비스 용도에 따라 더 많은 데이터로 "오버트레이닝"하는 게 경제적일 수 있어요.

3. 단일 벤치마크로 모델 품질 판단 MMLU 점수 하나로 모델을 평가하면 오해하기 쉬워요. 프롬프트 형식에 따라 최대 76포인트 차이가 나는 만큼, 다양한 평가 지표를 함께 보세요.

4. 사전훈련 후 바로 배포 사전훈련만 마친 모델은 질문에 제대로 답하지 못해요. SFT → RLHF/DPO로 이어지는 후훈련 과정이 반드시 필요합니다.

5. 시스템 최적화 무시 아무리 좋은 모델도 실제 배포 환경에서 너무 느리거나 메모리를 너무 많이 먹으면 쓸 수 없어요. FlashAttention, 양자화, 병렬화 같은 시스템 최적화가 실용 배포의 핵심입니다.

마무리

LLM 만들기는 생각보다 훨씬 정교한 과정이에요. 사전훈련으로 언어를 이해하고, 데이터 파이프라인으로 품질을 확보하고, 스케일링 법칙으로 학습 규모를 결정하고, 후훈련으로 대화 능력을 부여하고, 평가와 시스템 최적화로 실제 서비스에 올리는 다섯 단계가 유기적으로 연결되어야 합니다.

GPT나 Claude 같은 최신 모델들이 단순히 "더 큰 모델, 더 많은 데이터"의 결과물이 아니라는 걸 이제 아시겠죠? 각 단계에서의 세심한 설계 결정이 최종 모델의 품질을 결정해요.

AI 기술에 관심 있으신 분들이라면, 이 5단계 파이프라인을 이해하면 뉴스에 나오는 새로운 모델 발표들을 훨씬 더 깊이 이해할 수 있을 거예요. "이 모델은 어떤 데이터로 학습했지?", "스케일링 법칙을 어떻게 적용했지?", "후훈련은 어떤 방식을 썼지?" 같은 질문이 자연스럽게 떠오르기 시작할 거예요.

자주 묻는 질문 (FAQ)

Q: LLM 만들기를 시작하려면 무엇이 가장 중요한가요?

LLM 만들기에서 가장 중요한 첫 단계는 데이터 품질이에요. Common Crawl 같은 대규모 데이터를 모아도 HTML 추출, NSFW 필터링, 중복 제거, 품질 필터링 등 6단계 정제 파이프라인을 거치지 않으면 오히려 모델 성능이 떨어질 수 있어요. 양보다 질이 핵심입니다.

Q: Chinchilla 스케일링 법칙이란 무엇인가요?

Chinchilla 스케일링 법칙은 2022년 DeepMind가 발표한 연구로, 훈련 효율을 최대화하려면 파라미터 1개당 약 20개의 토큰으로 학습시키는 게 최적이라는 발견이에요. 다만 2026년 현재 실제 서비스 배포를 고려하면 추론 비용 최적화를 위해 150+ 토큰/파라미터로 오버트레이닝하는 경향이 표준이 되고 있어요.

Q: RLHF와 DPO의 차이는 무엇인가요?

RLHF는 별도 보상 모델을 학습시킨 후 강화학습으로 언어 모델을 개선하는 3단계 방식이에요. DPO는 보상 모델 없이 선호 데이터를 직접 언어 모델 학습에 활용해서 더 간단하고 안정적이에요. 최신 모델들에서 DPO가 널리 사용되는 추세입니다.

Q: LLM 평가에서 MMLU 점수만 믿어도 되나요?

MMLU 점수 하나만 보는 건 위험해요. 프롬프트 형식만 바꿔도 같은 모델에서 최대 76포인트 차이가 날 수 있거든요. HELM 같은 종합 평가 프레임워크나, 실제 사람이 비교 투표하는 Chatbot Arena(2026-05-27 현재 600만+ 투표)를 함께 참고하세요.

Q: 7B 모델을 내 PC에서 돌리려면 메모리가 얼마나 필요한가요?

7B 파라미터 모델을 FP32로 로드하면 약 112GB 메모리가 필요해요. bf16 사용 시 약 14GB, 4비트 양자화 적용 시 약 7GB 수준으로 줄어들어요. Ollama 같은 도구로 4비트 양자화를 활용하면 일반 PC에서도 실행 가능합니다.

참고자료

Vaswani et al. (2017). Attention is All You Need. arXiv:1706.03762 https://arxiv.org/abs/1706.03762

Brown et al. (2020). Language Models are Few-Shot Learners (GPT-3). arXiv:2005.14165 https://arxiv.org/abs/2005.14165

Hoffmann et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556 https://arxiv.org/abs/2203.15556

Ouyang et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). arXiv:2203.02155 https://arxiv.org/abs/2203.02155

Taori et al. (2023). Alpaca: A Strong, Replicable Instruction-Following Model. Stanford CRFM https://crfm.stanford.edu/2023/03/13/alpaca.html

Rafailov et al. (2023). Direct Preference Optimization (DPO). arXiv:2305.18290 https://arxiv.org/abs/2305.18290

Hendrycks et al. (2020). Measuring Massive Multitask Language Understanding (MMLU). arXiv:2009.03300 https://arxiv.org/abs/2009.03300

Liang et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110 https://arxiv.org/abs/2211.09110

Dao et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention. arXiv:2205.14135 https://arxiv.org/abs/2205.14135

Chiang et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs. arXiv:2403.04132 https://arxiv.org/abs/2403.04132

DeepSeek-AI (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437 https://arxiv.org/abs/2412.19437

Common Crawl. Open Repository of Web Crawl Data (2026-05-27 접속) https://commoncrawl.org

Sutton, R. (2019). The Bitter Lesson (2026-05-27 접속) http://www.incompleteideas.net/IncIdeas/BitterLesson.html

Li et al. (2023). AlpacaEval: An Automatic Evaluator of Instruction-following Models (2026-05-27 접속) https://github.com/tatsu-lab/alpalpacaeval

Rajbhandari et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054 https://arxiv.org/abs/1910.02054