본문으로 건너뛰기
블로그로 돌아가기
GPT-5.5 (Spud) 출시 분석: GPT-4.5 이후 첫 from-scratch base model
리뷰

GPT-5.5 (Spud) 출시 분석: GPT-4.5 이후 첫 from-scratch base model

10분 읽기0

GPT-5.5 (Spud) 출시 분석: GPT-4.5 이후 첫 from-scratch base model

2026년 4월 23일, OpenAI가 GPT-5.5(코드네임 "Spud")를 공개했습니다. 다음 날인 4월 24일에는 API로도 풀렸습니다. 그런데 출시 직후 흥미로운 평가가 나왔습니다. "엄청 좋아졌는데, 대부분 유저는 차이를 못 느낄 거다." 모순처럼 보이는 이 한 문장이 GPT-5.5의 본질을 정확히 짚습니다.

이 글에서는 GPT-5.5가 왜 "from-scratch base model"이라 불리는지, "o2" 훈련 인프라가 무엇을 바꿨는지, 그리고 가장 중요한 질문 — 왜 일반 유저는 차이를 못 느끼는데 개발자와 파워유저는 명확한 차이를 느끼는지 — 를 데이터와 함께 정리합니다.

GPT-5.5는 무엇인가: Spud의 정체

GPT-5.5는 OpenAI가 2026년 4월 23일 ChatGPT에 먼저 풀고, 4월 24일 API로 공개한 새 모델입니다. Axios 등 복수 미디어가 보도한 내부 코드네임은 "Spud"(감자)입니다. 공식 명칭은 GPT-5.5와 GPT-5.5 Pro 두 종류입니다.

가용성과 가격은 다음과 같습니다.

항목GPT-5.5GPT-5.5 Pro
입력 가격 (1M tokens)$5$30
출력 가격 (1M tokens)$30$180
Context Window (API)1,000,000 tokens1,000,000 tokens
Context Window (Codex)400,000 tokens400,000 tokens
가용 채널ChatGPT Plus/Pro/Business/Enterprise, Codex, API동일

GPT-5.5 한 줄 요약: GPT-4.5 이후 처음으로 완전히 새로 학습한 base model. 새 훈련 인프라 "o2"로 환각 60% 감소, 토큰 40% 효율을 달성했지만, 개선이 복잡한 작업에 집중되어 일반 사용 환경에서는 체감이 작다.

왜 "from-scratch base model"인가

GPT-5.5의 가장 중요한 특징은 단순한 버전 업그레이드가 아니라는 점입니다. GPT-4.5 이후 처음으로 처음부터 다시 학습한(from-scratch pretraining) 베이스 모델입니다.

GPT-5.x 시리즈의 학습 구조

버전사전학습(Pre-training)포스트트레이닝(Post-training)
GPT-5AA 기반
GPT-5.1~5.4A (동일)개선됨
GPT-5.5B (신규)B 기반 신규

GPT-5.1, 5.2, 5.3, 5.4까지는 모두 같은 사전학습 가중치 위에서 RLHF·SFT 등 post-training만 반복적으로 개선한 모델이었습니다. 비유하자면 같은 엔진에 시트와 조향장치만 바꿔 끼운 셈입니다.

GPT-5.5는 다릅니다. 엔진 자체를 새로 만들었습니다.

Pre-training과 Post-training의 차이

구분Pre-trainingPost-training
목적세상에 대한 기본 지식·패턴 학습특정 행동 방식·선호 학습
데이터대규모 텍스트 코퍼스사람 피드백·큐레이션 데이터
비용매우 높음 (수천만~수억 달러)상대적으로 낮음
개선 한계한 번 학습되면 기본 능력 고정기반 능력을 뛰어넘기 어려움

Sam Altman은 GPT-5.5를 두고 "a specific phase of intelligence development의 완성"이라고 표현했습니다. 단순 업데이트가 아닌 개발 단계의 마일스톤이라는 의미입니다.

"o2" 훈련 인프라가 가져온 변화

GPT-5.5의 새 베이스를 만든 것은 OpenAI가 새로 구축한 훈련 인프라 "o2" 입니다. 기술 세부 사항은 OpenAI가 공개하지 않았지만, 결과 지표는 공개되었습니다.

두 가지 핵심 개선

  • 환각 60% 감소 (GPT-5 대비): 긴 문서 작업, 복잡한 추론 체인에서 잘못된 정보를 생성하는 빈도가 절반 이하로 떨어졌습니다.
  • 토큰 효율 40% 향상: 동일한 작업에 40% 적은 토큰을 사용합니다. API 사용자에게는 직접적인 비용 절감으로 이어집니다.

토큰 효율 개선은 특히 중요합니다. 비유하자면 같은 거리를 가는데 연비가 40% 좋아진 자동차입니다. ChatGPT에서는 체감하기 어렵지만, API로 매일 수억 토큰을 호출하는 서비스는 운영 비용 구조 자체가 달라집니다.

벤치마크의 양면성: Terminal-Bench vs SWE-bench Pro

GPT-5.5의 벤치마크 결과는 한쪽으로 쏠리지 않습니다. 영역에 따라 선두가 갈립니다.

벤치마크GPT-5.5Claude Opus 4.7우세 모델
Terminal-Bench 2.0 (에이전틱 코딩)82.7%(낮음)GPT-5.5
SWE-bench Verified88.7%(미공개 비교)-
SWE-bench Pro (실제 코드베이스)58.6%64.3%Claude Opus 4.7
MMLU92.4% (BenchLM.ai 기준)--

벤치마크 해석: Terminal-Bench 2.0은 자율적인 에이전트가 멀티스텝 코딩 작업을 끝까지 수행하는 능력을 측정합니다. SWE-bench Pro는 실제 오픈소스 코드베이스의 버그 리포트를 받아 수정 패치를 만드는 능력을 측정합니다. 두 벤치마크의 성격이 다르기 때문에 강점도 갈립니다.

쉽게 말하면 GPT-5.5는 자율 실행에서 강하고, Claude Opus 4.7은 실제 엔지니어링 작업에서 강합니다. 둘 다 "코딩 잘함"이지만 "코딩 잘함"의 정의가 다릅니다.

이는 모델 선택에 실질적 의미가 있습니다. AI 에이전트를 만들어 자동화 파이프라인을 굴린다면 GPT-5.5가 유리할 수 있고, 실제 프로덕션 코드베이스에서 버그를 잡는다면 Claude Opus 4.7이 유리할 수 있습니다.

일반 유저는 왜 차이를 못 느낄까: Jagged Frontier

이제 가장 흥미로운 질문입니다. GPT-5.5가 이렇게 좋아졌다는데, 왜 ChatGPT를 쓰는 일반 유저는 "그냥 좀 빨라진 거 같은데?" 정도로만 느낄까요?

답은 Ethan Mollick이 정리한 Jagged Frontier(들쭉날쭉한 경계) 개념에 있습니다.

Jagged Frontier가 뭔가

AI는 균등하게 발전하지 않습니다. 특정 영역에서 폭발적으로 좋아지고, 다른 영역에서는 거의 그대로입니다. 능력의 경계가 매끄럽지 않고 들쭉날쭉합니다.

GPT-5.5의 개선은 다음 영역에 집중되어 있습니다.

개선 영역일반 유저 체감
복잡한 에이전틱 멀티스텝 작업낮음
코딩 에이전트 (Terminal-Bench, SWE-bench)개발자만
환각 감소 (긴 추론 체인)간접적
토큰 효율 (40% 절감)API 사용자만
고정밀 논리 (Pro)전문가만

일반 유저가 차이를 못 느끼는 4가지 이유

  1. GPT-5가 이미 충분히 좋다: 일상적 질의응답, 글쓰기, 요약에서 GPT-5는 이미 체감 임계점을 넘었습니다. 추가 개선이 와도 "오, 좋아졌네" 수준에 그칩니다.

  2. 개선이 비선형적: 특정 복잡도 이상에서 급격히 좋아지지만, 그 이하에서는 차이가 미미합니다. 일반 사용은 대부분 임계점 아래에 있습니다.

  3. 프롬프트 습관의 한계: 일반 유저는 모델의 새 역량을 끌어내는 복잡한 프롬프트를 잘 사용하지 않습니다. 단순 요청에는 단순 답이 돌아옵니다.

  4. 개선 영역의 미스매치: GPT-5.5가 잘하는 것(자율 실행, 환각 감소, 토큰 효율)과 일반 유저가 자주 하는 것(질문, 요약, 글쓰기)은 다른 영역입니다.

누가 진짜로 차이를 느끼는가

반대로 다음 그룹은 명확한 차이를 체감합니다.

  • API 사용자: 토큰 효율 40% 향상이 운영 비용에 즉각 반영됩니다. 동일 작업에 40% 적은 비용.
  • 에이전트 빌더: 멀티스텝 자율 워크플로우에서 완수율이 올라갑니다. Terminal-Bench 2.0의 82.7% 성적이 이를 증명합니다.
  • 긴 문서 작업자: 환각 60% 감소는 법률 문서 분석, 긴 보고서 작성 등에서 오류 빈도를 절반 이하로 떨어뜨립니다.
  • OpenAI Codex 사용자: 400K context window와 향상된 코딩 능력을 직접 활용합니다.

Simon Willison은 자신의 블로그에서 GPT-5.5를 두고 "fast, effective, highly capable"이라고 평가했습니다. 그가 파워유저이자 개발자이기 때문에 가능한 평가입니다. 일반 유저였다면 같은 모델을 쓰고도 "그냥 좀 빨라진 듯?"이라고 했을 가능성이 큽니다.

핵심 통찰: GPT-5.5가 던지는 질문은 모델의 성능이 아니라 사용 방식입니다. AI를 도구로만 쓰는 사용자에게는 차이가 작고, AI를 파이프라인의 부품으로 쓰는 사용자에게는 차이가 큽니다. 도구는 같지만 사용 방식이 결과를 가릅니다.

마무리

GPT-5.5(Spud)는 표면적으로는 0.5 단위의 작은 업데이트처럼 보이지만, 내부적으로는 GPT-4.5 이후 처음으로 새로 학습한 base model입니다. "o2" 훈련 인프라로 환각 60% 감소, 토큰 40% 효율 개선을 달성했고, Terminal-Bench 2.0에서 82.7%라는 강한 성적을 냈습니다.

하지만 SWE-bench Pro에서는 Claude Opus 4.7(64.3%)이 더 앞섭니다. 모델별로 강점이 다른 시대로 본격 진입한 것입니다.

가장 중요한 점은, GPT-5.5의 개선이 일반 사용 환경에서는 잘 보이지 않는다는 사실입니다. Jagged Frontier 현상 때문입니다. 이 모델은 일반 유저용 업그레이드가 아니라, 개발자·API 사용자·에이전트 빌더용 업그레이드입니다.

ChatGPT만 쓴다면 "GPT-5와 GPT-5.5의 차이"가 잘 안 보일 겁니다. API와 Codex와 에이전트를 만든다면 차이가 명확하게 보일 겁니다. 같은 도구도 사용 방식이 결과를 가릅니다.

자주 묻는 질문 (FAQ)

Q: GPT-5.5와 GPT-5의 차이는 무엇인가요?

GPT-5.5는 GPT-4.5 이후 처음으로 처음부터 다시 학습한(from-scratch pretraining) 베이스 모델입니다. GPT-5와는 학습 데이터·아키텍처가 다른 새 베이스에서 출발했고, "o2" 훈련 인프라로 환각이 60% 감소했으며 토큰 효율이 40% 향상되었습니다. GPT-5.1~5.4는 GPT-5와 같은 베이스에서 post-training만 개선한 버전이었습니다.

Q: GPT-5.5와 Claude Opus 4.7 중 어떤 게 더 나은가요?

영역에 따라 다릅니다. 자율 에이전트 작업(Terminal-Bench 2.0)은 GPT-5.5가 82.7%로 우세하고, 실제 코드베이스 버그 수정(SWE-bench Pro)은 Claude Opus 4.7이 64.3%로 우세합니다. AI 에이전트 빌더에게는 GPT-5.5, 실제 프로덕션 코드 작업자에게는 Claude Opus 4.7이 적합할 수 있습니다.

Q: GPT-5.5 Pro는 누구에게 적합한가요?

GPT-5.5 Pro는 입력 $30 / 출력 $180 per 1M tokens로 일반 GPT-5.5(입력 $5 / 출력 $30)의 6배 가격입니다. 고정밀 논리, 특화 도메인 추론이 필요한 전문 영역에 적합하며, 일반 ChatGPT 사용 또는 비용에 민감한 API 사용자라면 표준 GPT-5.5가 합리적입니다.

참고 자료


이 글은 2026년 4월 25일 기준 공개 정보를 바탕으로 작성되었습니다. 일부 벤치마크 수치(예: MMLU)는 출처 간 불일치가 있어 BenchLM.ai 기준값을 사용했습니다. 최신 공식 문서를 항상 확인하시기 바랍니다.