Skip to content
Back to Blog
[TUTORIAL]

프롬프트가 아니라 루프를 설계하라 — Claude Fable 5 시대의 AI 활용법

5 min read0 views

프롬프트가 아니라 루프를 설계하라 — Claude Fable 5 시대의 AI 활용법

좋은 프롬프트를 쓰는 게 곧 AI 실력이라고 생각하셨다면, 이제 생각을 한 단계 바꿀 때입니다. Anthropic의 Lance Martin이 2026-06-09 공개된 Claude Fable 5를 두고 쓴 아티클의 핵심은 분명합니다. 모델에게 매번 더 잘 지시하는 것보다, 모델이 스스로 고쳐나가는 루프(loop)를 설계하는 것이 낫다는 겁니다.

이 글에서는 그 아티클이 제시한 두 가지 자기교정 프리미티브와, Fable 5가 직전 모델인 Opus 4.7을 어떻게 앞섰는지를 실무자 관점에서 정리했습니다.

Claude Fable 5는 어떤 모델인가

Claude Fable 5는 Anthropic이 "Mythos" 클래스 모델을 일반 사용자용으로 안전화해 처음 공개한 버전입니다. 2026-06-09에 소수 검증 고객 전용인 Mythos 5와 함께 발표됐습니다. Anthropic이 일반 공개한 모델 중 가장 강력하며, 소프트웨어 엔지니어링·지식 작업·비전·과학 연구 등 대부분의 벤치마크에서 최고 수준을 기록했다고 합니다.

가격은 입력 100만 토큰당 $10, 출력 100만 토큰당 $50로 Opus 4.8의 약 2배입니다. 여기서 한 가지 주의할 점이 있습니다. 가격 비교 대상은 Opus 4.8이지만, 아래에서 다룰 성능 실험의 비교 대상은 직전 세대인 Opus 4.7입니다. 두 버전을 혼동하지 않는 것이 중요합니다.

프롬프팅에서 루프 설계로

아티클이 던지는 첫 번째 메시지는 관점의 전환입니다. Claude Code를 만든 Boris Cherny는 아티클에서 "내 일은 루프를 짜는 것이다"라고 말했다고 전해집니다. 모델에게 "이렇게 해줘"라고 매번 지시하는 대신, 모델이 평가 기준을 향해 한 걸음씩 올라가며(hillclimb) 스스로 교정하도록 환경을 설계하는 방식입니다.

잘 설계된 목표(goal)나 채점 기준(rubric)은 Claude가 동작하는 환경에 피드백을 더합니다. Claude는 실행하고, 그 피드백을 수집하고, 스스로 교정한 뒤, 목표나 기준이 충족될 때까지 반복합니다. 이것이 **자기교정 루프(self-correction loop)**입니다.

실무에서 바로 쓰는 세 가지 도구

아티클은 이 루프를 구현하는 구체적인 프리미티브를 제시합니다.

1. /goal — Claude Code

Claude Code의 /goal은 완료 조건(condition)을 설정하면 Claude가 매 턴 그 조건을 향해 자율적으로 진행합니다. 매 턴 후 작고 빠른 모델(기본 Haiku)이 조건 충족 여부를 채점하고, 충족되지 않았으면 "왜 아닌지"를 다음 턴 가이드로 주입합니다. 핵심 설계는 "일하는 에이전트"와 "끝났다고 판단하는 에이전트"를 분리하는 것입니다.

2. Outcomes — Claude Managed Agents

Claude Managed Agents(CMA)의 Outcomes는 세션에 "채점만 하는" 두 번째 에이전트(grader)를 붙입니다. 채점 기준을 작성하면 에이전트가 그 기준을 향해 작업하고, 독립된 grader가 자기만의 컨텍스트 윈도우에서 매 반복마다 산출물 전체를 다시 채점합니다. 작성하는 에이전트가 채점자를 "설득"할 수 없다는 점이 핵심입니다.

3. memory — 세션을 넘나드는 바깥쪽 루프

memory는 세션 사이를 잇는 외부 루프입니다. Claude가 한 세션에서 메모리에 기록하면, 그 메모리를 미래 세션에서 다시 불러올 수 있습니다. 단발성 작업이 아니라 시간에 걸쳐 학습이 누적되는 구조입니다.

왜 자기비판이 아니라 검증자 분리인가

여기서 반직관적인 포인트가 나옵니다. 아티클에 따르면 모델은 자기 출력을 자기가 채점할 때(self-critique) 약합니다. Anthropic 엔지니어링 블로그에서 Prithvi Rajasekaran이 이 문제를 다뤘다고 아티클은 참조합니다.

대안은 검증자(verifier) 서브에이전트를 따로 두는 것입니다. 채점이 독립된 컨텍스트 윈도우에서 이뤄지기 때문에 자기비판보다 우수합니다. CMA의 Outcomes는 grader 서브에이전트를 자동으로 스폰해 이 구조를 대신 처리해줍니다. 한마디로, 일하는 AI와 "끝났다"고 판단하는 AI를 분리하라는 것입니다.

숫자로 본 실험 — Parameter Golf

Lance Martin은 Parameter Golf라는 토이 예제로 Fable 5와 Opus 4.7을 비교했습니다. Parameter Golf는 OpenAI가 공개한 오픈소스 ML 엔지니어링 챌린지로, 16MB 아티팩트에 들어가면서 8xH100에서 10분 미만에 학습되는 최고의 모델을 만드는 과제입니다. 단일 train_gpt.py 파일을 편집하고, 학습을 실행하고, 로그를 폴링하고, 점수를 읽고, 다음 실험을 결정하는 에이전트의 능력을 테스트합니다.

실험은 CMA의 자체 호스팅 샌드박스(8xH100)에서 진행됐고, 9개의 체크 가능한 기준을 담은 rubric을 공급한 뒤 최대 8시간 실행했습니다. Outcomes grader가 모든 실험 기준 충족을 확인한 뒤에만 Claude의 작업 중단을 허용했습니다.

결과는 분명했습니다. Fable 5가 트레이닝 파이프라인을 Opus 4.7 대비 약 6배 더 개선했습니다. Fable 5는 아키텍처 변경 같은 구조적 실험에 베팅했고, 양자화 회귀를 뚫고 최대 성과에 도달하는 회복력을 보였습니다. 반면 Opus 4.7은 첫 실험에서 작은 성과를 낸 뒤 거의 모든 후속 실험이 같은 템플릿(스칼라 조정 → 측정 → 양수면 유지)을 반복했습니다.

메모리 실험 — Continual Learning Bench

메모리에서도 격차가 컸습니다. Continual Learning Bench의 한 task(SQL 데이터베이스에 접근해 순차 질문에 답하기)에서, 각 질문은 별도 에이전트 세션으로 진행되고 메모리가 제공됩니다.

효과적인 메모리 활용은 다섯 단계로 진행됩니다. 실패를 기록하고(fail), 넘어가기 전에 원인을 파악하고(investigate), 진단을 검증된 사실로 전환하고(verify), 검증을 일반 규칙으로 정리하고(distill), 재도출 대신 규칙을 참조하는(consult) 흐름입니다.

  • Sonnet 4.6: 1단계 부근에서 멈췄습니다. 저장소가 실패 노트와 미해결 추측의 나열에 그쳤고, 이전 노트를 거의 참조하지 않았습니다.
  • Opus 4.7: 3단계 부근까지 갔습니다. 불확실성을 표시한 스키마 참조를 만들었지만, 검증 커버리지가 질문의 7~33%(중앙값 약 17%)에 그쳤습니다.
  • Fable 5: 진행을 완주하는 경향을 보였습니다. 가장 강한 run에서 검증 커버리지가 최대 73%(30개 중 22개)에 도달했고, 학습을 일반 규칙으로 정리해 미래 task에 도움을 줬습니다.

다만 균형을 위해 덧붙이면, Continual Learning Bench 원논문은 "전용 메모리 시스템이 만능은 아니며, 순진한 in-context learning이 메모리 전용 시스템을 능가하기도 한다"는 헤드룸을 지적합니다. 이는 오히려 "도구보다 루프 설계가 핵심"이라는 메시지를 강화하는 관점으로 읽을 수 있습니다.

실무 적용 체크리스트

오늘부터 적용할 수 있는 정리입니다.

  1. 작업을 시작하기 전에 "끝났다고 누가 판단하지?"부터 물어보세요.
  2. Claude Code라면 /goal로 완료 조건을 명시적으로 거세요.
  3. 채점은 작업하는 에이전트가 아니라 독립된 검증자에게 맡기세요(Outcomes).
  4. 반복 작업이라면 memory로 배운 걸 일반 규칙으로 남겨 다음 세션에서 재사용하세요.

자주 묻는 질문(FAQ)

Q. Claude Fable 5는 언제 공개됐나요? A. 2026-06-09에 Mythos 5와 함께 공개됐습니다. Fable 5는 일반 공개용, Mythos 5는 소수 검증 고객 전용입니다.

Q. 실험에서 비교한 모델은 Opus 4.8인가요? A. 아닙니다. 성능 실험(Parameter Golf, Continual Learning Bench)의 비교 대상은 직전 세대인 Opus 4.7입니다. Opus 4.8은 가격 비교에서만 언급됩니다.

Q. Parameter Golf는 Anthropic이 만든 챌린지인가요? A. 아닙니다. Parameter Golf는 OpenAI가 공개한 오픈소스 ML 엔지니어링 챌린지입니다. Lance Martin이 이를 Fable 5 테스트에 활용한 것입니다.

Q. /goal과 Outcomes는 지금 쓸 수 있나요? A. 네. /goal은 Claude Code의 기능이고, Outcomes는 Claude Managed Agents의 기능으로 둘 다 사용 가능합니다.

참고 자료