본문으로 건너뛰기
블로그로 돌아가기

클로드코드에 GPT·GLM·DeepSeek를 꽂아봤습니다 — 다른 AI 모델 연결 실전 가이드

10분 읽기0
<h1>클로드코드에 GPT·GLM·DeepSeek를 꽂아봤습니다 — 다른 AI 모델 연결 실전 가이드</h1> <p>클로드코드(Claude Code)를 켰는데, 모델 자리에 Claude가 아니라 <strong>GPT·GLM·DeepSeek, 심지어 막 나온 Gemma 4</strong>가 떠 있다면 어떨까요? "이게 진짜 되나?" 싶으시죠.</p> <p>됩니다. 그것도 꼼수가 아니라 <strong>Anthropic이 공식 지원하는 기능</strong>이에요.</p> <p>이 글은 그 셋업을 세 가지 경로로, 제가 실제로 끝까지 따라 하며 검증한 명령만 담았습니다. 복붙하면 됩니다. 그리고 중간에 제가 직접 막혔던 함정 5곳도 그대로 공개합니다 — 여러분은 안 막히게요.</p> <blockquote><p>먼저 핵심 한 줄: <strong>연결은 거의 다 됩니다. 진짜 변수는 "그 모델이 도구 호출(tool-use)을 잘 하느냐"예요.</strong> GLM·Qwen·DeepSeek은 안정적이고, Gemma 4는 단발 작업은 잘하지만 도구를 여러 개 강제하는 긴 작업에선 까다로워요. 이게 왜 중요한지는 끝에서 설명할게요.</p></blockquote> <h2>왜 굳이 모델을 바꾸나 — '모델'이 아니라 '하네스'</h2> <p>여기서 개념 하나만 짚고 갈게요. 클로드코드의 진짜 가치는 <strong>모델이 아니라 '하네스(harness)'</strong>, 그러니까 에이전트 루프예요.</p> <p>비유하자면 모델은 <strong>엔진</strong>입니다. GPT든 Gemma든 GLM이든 갈아끼울 수 있는 부품이죠. 그런데 엔진만 산다고 차가 굴러가나요? 아니에요. <strong>차체 골격</strong>이 있어야 합니다. 클로드코드에서 그 골격이 바로 하네스 — 스스로 작업을 계획하고, 파일을 읽고, 도구를 호출하고, 결과를 보고 다시 실행하는 그 반복 능력이에요.</p> <p>그래서 "싼 모델을 따로 쓰는 것"과 "클로드코드 하네스 위에 싼 모델을 얹는 것"은 완전히 다른 얘기예요. 후자가 훨씬 강력하죠. 게다가 비용도 매력적입니다. z.ai의 GLM Coding Plan 같은 경우 <strong>월 3~10달러대</strong>(z.ai 공식 Coding Plan 기준)거든요.</p> <h2>경로 ① OpenRouter + ccr (가장 쉬움, 추천)</h2> <p>키 하나로 DeepSeek·Qwen·GLM을 전부 쓰고, 뒤에 나올 "구독 충돌 401" 문제도 없는 길입니다.</p> <pre><code class="language-bash"># 1) 설치 npm install -g @anthropic-ai/claude-code @musistudio/claude-code-router

2) OpenRouter 키 발급: https://openrouter.ai/keys (크레딧 충전 후 Create Key)

</code></pre>

<p><code>~/.claude-code-router/config.json</code>을 만들고:</p> <pre><code class="language-json">{ "Providers": [{ "name": "openrouter", "api_base_url": "https://openrouter.ai/api/v1/chat/completions", "api_key": "sk-or-v1-본인-키", "models": ["deepseek/deepseek-v4-flash", "qwen/qwen3-coder-plus", "z-ai/glm-4.6"], "transformer": { "use": ["openrouter"] } }], "Router": { "default": "openrouter,deepseek/deepseek-v4-flash" } } </code></pre> <pre><code class="language-bash">chmod 600 ~/.claude-code-router/config.json # 키 보호 ccr restart &amp;&amp; ccr code </code></pre> <p>실행하면 화면엔 <code>Opus 4.8</code>로 뜨는데, <strong>이건 claude code UI 라벨일 뿐 실제 백엔드는 위 default(DeepSeek)</strong>예요. ccr 세션 안에서 <code>/model openrouter,z-ai/glm-4.6</code> 으로 모델을 바꿀 수 있습니다.</p> <h2>경로 ② Ollama 로컬 (무료, Gemma 4 / Qwen)</h2> <p>내 컴퓨터에서 무료로, 오프라인으로 돌리고 싶다면 Ollama예요.</p> <pre><code class="language-bash"># macOS — ⚠️ 반드시 cask(앱)로! (이유는 함정 1번에서) brew install --cask ollama open -a Ollama

Linux 서버

curl -fsSL https://ollama.com/install.sh | sh </code></pre>

<pre><code class="language-bash">ollama pull gemma4:12b # 7.6GB — Gemma 4 ollama pull qwen2.5-coder # 4.7GB — tool-use 안정적 # 클로드코드 연결 (Ollama 0.14+ 네이티브 지원) export OLLAMA_CONTEXT_LENGTH=65536 # 도구 정의가 잘리지 않게 컨텍스트 확대(함정 4번) ollama launch claude --model qwen2.5-coder </code></pre> <h2>경로 ③ z.ai GLM 직접 (환경변수 drop-in)</h2> <p>z.ai는 Anthropic 호환 주소를 줘서 프록시 없이 환경변수만으로 됩니다.</p> <pre><code class="language-bash">export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic" export ANTHROPIC_AUTH_TOKEN="z.ai-키" # z.ai 공식 권장 변수 export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.6" claude </code></pre> <p>다만 여기서 가장 많이 막혀요(함정 2번). 클로드코드에 구독(Claude Max/Pro) 로그인이 돼 있으면 그 인증을 환경변수보다 우선해서 401이 납니다. 깔끔하게 쓰려면 그냥 ①번 OpenRouter로 <code>z-ai/glm-4.6</code>을 쓰는 걸 추천해요.</p> <h2>따라 하다 막히는 5곳 (제가 직접 겪은 것)</h2> <table><thead><tr><th>#</th><th>증상</th><th>해결</th></tr></thead><tbody> <tr><td>1</td><td><code>llama-server binary not found</code> (Ollama)</td><td>macOS는 <code>brew install --cask ollama</code> — <strong>formula는 추론 엔진이 빠져있어요</strong></td></tr> <tr><td>2</td><td><code>401 token expired</code> (z.ai 직접)</td><td>클로드코드가 <strong>기존 구독 로그인을 환경변수 키보다 우선</strong>해서 생김. → ccr 경유로 우회</td></tr> <tr><td>3</td><td><code>Invalid tool parameters</code> (도구 깨짐)</td><td>thinking 모드 + tool 조합 충돌. <strong>thinking OFF</strong></td></tr> <tr><td>4</td><td>로컬 모델이 도구를 아예 못 봄</td><td><code>num_ctx</code> 기본값(12288)이 작아 도구 정의가 잘림. <code>OLLAMA_CONTEXT_LENGTH=65536</code></td></tr> <tr><td>5</td><td>Gemma가 긴 agentic 작업에서 불안정</td><td>Gemma 4는 tool-call을 <strong>학습했지만</strong>(공식 지원), 도구를 여러 개 강제하는 긴 체인에선 일관성이 떨어질 수 있어요. 단발 작업(요약·번역)은 잘 됨</td></tr> </tbody></table> <p>특히 1번과 2번은 검색해도 잘 안 나와서 한참 헤맸어요. 1번은 <code>brew install ollama</code>(formula)로 깔면 추론이 아예 안 됩니다 — 반드시 <code>--cask</code>. 2번은 화면에 <code>· Claude Max</code>로 떠 있으면 그 상태고, ccr를 쓰면 깔끔하게 우회됩니다.</p> <h2>진짜 그 모델이 도는가? — 검증법</h2> <p>클로드코드 화면의 모델 이름은 믿지 마세요(ccr 경유 시 <code>Opus 4.8</code>로 표시됩니다). 확실한 건 <strong><a href="https://openrouter.ai/activity">OpenRouter Activity</a></strong> — 작업하면 실제 호출된 모델(<code>deepseek/...</code>)·토큰·비용이 실시간으로 찍힙니다. Opus였다면 거기 안 찍히죠.</p> <h2>모델 선택 + 비용</h2> <table><thead><tr><th>모델</th><th>tool-use</th><th>추천 용도</th></tr></thead><tbody> <tr><td><strong>GLM-4.6</strong></td><td>안정적</td><td>범용 코딩 (z.ai 공식 Coding Plan)</td></tr> <tr><td><strong>Qwen3-Coder</strong></td><td>안정적</td><td>코딩 특화, 한국어 OK</td></tr> <tr><td><strong>DeepSeek V4</strong></td><td>안정적(thinking OFF)</td><td>가성비 범용</td></tr> <tr><td><strong>Gemma 4 12B</strong></td><td>단발 OK·긴 체인 불안정</td><td>요약·번역·로컬 무료 (긴 agentic은 직접 검증)</td></tr> </tbody></table> <p>처음이라면 OpenRouter + ccr로 <code>deepseek/deepseek-v4-flash</code>부터 시작하세요. 가장 싸고 무난합니다. 완전 무료·오프라인이 필요하면 Ollama + <code>qwen2.5-coder</code>로 가시고, Gemma 4는 요약·번역 같은 단발 작업에 쓰는 게 안정적이에요.</p> <h2>마지막으로 — 안전</h2> <p>API 키는 절대 깃허브에 올리지 마세요. <code>chmod 600</code>으로 보호하고, 노출됐다면 즉시 재발급하세요. 그리고 외부 모델 연결은 <strong>내 코드가 그 회사 서버로 흘러간다</strong>는 뜻이니, 민감한 사내 코드엔 신중하시고요.</p> <hr/> <p>영상에서는 이 셋업을 화면으로 직접 보여주고, <strong>Gemma 4를 클로드코드의 빡센 agentic 환경(도구 22개 강제)에 꽂으면 어디까지 버티는지</strong>까지 직접 돌려봅니다. 따라 하실 수 있게 전체 명령을 정리한 <a href="https://gist.github.com/sangrokjung/d753b57628b524ba49bcd03db3aaf6e0">셋업 가이드(복붙용)</a>도 같이 드려요. 도움이 되셨다면 구독으로 응원해 주세요.</p> <blockquote><p>이 글은 AI 보조로 작성·검증됐습니다. 모델명·가격·버전은 2026-06-05 기준이며 시점에 따라 바뀔 수 있으니 각 공식 사이트를 함께 확인하세요.</p></blockquote>