Qwen3.6-35B-A3B 분석: 30억 활성 파라미터로 Claude Sonnet 4.5를 넘어선 오픈소스 MoE 모델

2026년 4월 16일, 알리바바 통이랩(Tongyi Lab)이 Qwen3.6-35B-A3B를 Apache 2.0 라이선스로 공개했습니다. 350억 총 파라미터 중 30억만 활성화되는 MoE(Mixture-of-Experts) 구조로, Terminal-Bench 2.0에서 51.5점을 기록해 에이전틱 코딩 벤치마크 1위에 올랐습니다. 이번 출시의 기술적 의미, 핵심 벤치마크, 그리고 QJC 독자들이 즉시 실무에 적용할 수 있는 Claude Code 통합 방법까지 정리했습니다.

왜 Qwen3.6-35B-A3B 출시가 중요한가

이번 모델의 핵심은 "10배 적은 컴퓨팅으로 10배 큰 덴스 모델을 이겼다"는 점입니다. Qwen3.6-35B-A3B는 추론 시 30억 파라미터만 활성화되지만, 270억 파라미터 덴스 모델(Qwen3.5-27B)을 거의 모든 지표에서 앞섰습니다.

비유하자면 종합병원을 생각해보세요. 환자 한 명을 진료할 때 병원 전체 의사 100명이 달라붙는 게 아니라, 증상에 맞는 전문의 3~4명만 모입니다. MoE가 정확히 그런 구조입니다. 256명의 전문가(Expert) 중 입력 토큰마다 9명(8 active + 1 shared)만 계산에 참여합니다. 총 용량은 크지만 추론 비용은 작은 모델 수준이라는 뜻입니다.

실무 관점에서 이 효율성이 의미하는 건 세 가지입니다.

첫째, 클라우드 비용이 10분의 1로 떨어집니다. 알리바바 클라우드 Model Studio의 qwen3.6-flash API는 활성 파라미터 기준으로 과금되기 때문에, 동급 성능의 덴스 모델보다 훨씬 저렴합니다.

둘째, 로컬 실행이 현실적입니다. 24GB VRAM GPU 한 장(예: RTX 4090)에서 초당 196토큰을 뽑아냅니다. M4 Max 맥북에서도 60~70토큰이 나옵니다. 이는 종전 오픈소스 모델이 요구하던 80GB H100 요구사항에서 크게 완화된 수치입니다.

셋째, Apache 2.0 라이선스로 상업적 사용에 제한이 없습니다. 파인튜닝, 재배포, 상업 제품 탑재까지 전부 자유입니다.

에이전틱 코딩 벤치마크: Terminal-Bench 2.0 신기록

이번 출시에서 개발자들이 가장 주목해야 할 영역은 에이전틱 코딩입니다. Qwen3.6-35B-A3B는 Terminal-Bench 2.0에서 51.5점을 기록했는데, 이는 이전 세대 Qwen3.5-35B-A3B(40.5)보다 11점, 경쟁 모델 Gemma4-31B(42.9)보다 8.6점 높은 수치입니다.

벤치마크	Qwen3.6-35B-A3B	Qwen3.5-35B-A3B	Gemma4-31B
SWE-bench Verified	73.4	70.0	52.0
SWE-bench Multilingual	67.2	—	51.7
SWE-bench Pro	49.5	—	35.7
Terminal-Bench 2.0	51.5	40.5	42.9
NL2Repo	29.4	27.3	—
MCPMark	37.0	36.3	—
QwenWebBench	1397	1068	—

SWE-bench Verified 73.4는 실제 GitHub 이슈를 받아 PR을 만들고 테스트를 통과시키는 비율입니다. 10건 중 7건 이상 해결하는 수준이며, 이는 상용 유료 모델(Claude Sonnet 4.5, GPT-5.2) 대비 경쟁력 있는 수치입니다.

특히 주목할 부분은 QwenWebBench에서 1068 → 1397로 30.9% 향상된 점입니다. 이는 웹 브라우저 기반 에이전트(클릭, 스크롤, 폼 입력) 능력을 측정하는 지표로, 실전 RPA/자동화에 직결됩니다. browser-use 같은 도구와 결합하면 Claude 기반 자동화 스크립트를 그대로 Qwen으로 이식할 수 있습니다.

preserve_thinking: 에이전틱 작업의 숨은 기능

Qwen3.6-35B-A3B는 Thinking 모드와 Non-thinking 모드를 단일 모델에서 전환할 수 있습니다. 빠른 응답이 필요하면 Non-thinking, 깊은 추론이 필요하면 Thinking 모드를 선택합니다.

여기에 새로 추가된 preserve_thinking 기능이 실전에서 유용합니다. 에이전틱 작업은 긴 대화 흐름 속에서 여러 단계를 거치는데, 이전 턴의 사고 과정(thinking trace)을 다음 턴에 전달할지 선택할 수 있습니다. 복잡한 코드베이스 리팩토링이나 멀티스텝 디버깅에서 사고의 연속성을 유지하는 데 결정적인 역할을 합니다. 알리바바 공식 문서는 에이전트 작업에서 이 옵션을 켤 것을 권장합니다.

지식 추론과 멀티모달: 클로즈드 모델과의 정면 대결

Qwen3.6-35B-A3B의 성능은 코딩에 국한되지 않습니다. 지식 추론 벤치마크도 탄탄합니다.

MMLU-Pro: 85.2 (대학 수준 다학문 지식)
GPQA: 86.0 (대학원 수준 과학)
AIME 2026: 92.7 (수학 올림피아드)
HMMT Feb 2026: 83.6 (하버드-MIT 수학 토너먼트)
LiveCodeBench v6: 80.4 (경쟁 프로그래밍)

더 인상적인 영역은 비전-언어(VL)입니다. Claude Sonnet 4.5와 직접 비교한 결과, 4개 핵심 벤치마크에서 모두 앞섰습니다.

VL 벤치마크	Qwen3.6-35B-A3B	Claude Sonnet 4.5	우위
MMMU (대학 멀티모달)	81.7	79.6	+2.1
RealWorldQA	85.3	70.3	+15.0
MMBench	92.8	88.3	+4.5
OmniDocBench 1.5	89.9	85.8	+4.1

특히 RealWorldQA에서 15점 차이가 벌어진 점은 시사적입니다. 실세계 이미지 이해(제품 사진, 영수증, 도면)에서 오픈소스 모델이 클로즈드 모델을 크게 앞선 첫 사례 중 하나입니다. OCR과 문서 이해 영역(OmniDocBench)에서도 우위를 점해, 실무 OCR/RAG 파이프라인의 기본 모델 후보로 부상했습니다.

공간 지능(Spatial Intelligence) 측정 지표인 RefCOCO에서도 92.0을 기록했고, 객체 탐지(ODInW13)는 50.8로 네이티브 멀티모달 구조의 강점을 드러냈습니다.

Claude Code 통합: 환경변수 두 줄로 전환

QJC 독자의 실무 관점에서 가장 가치 있는 부분은 Claude Code와의 호환성입니다. Qwen3.6은 Anthropic Messages API 포맷을 공식 지원하므로, 환경변수 두 줄만 바꾸면 Claude Code CLI가 그대로 Qwen을 호출합니다.

export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_MODEL=qwen3.6-flash

이 설정만으로 claude code 명령어의 모든 기능(파일 편집, bash 실행, agent 호출)이 Qwen 백엔드로 돌아갑니다. 코드 변경은 단 한 줄도 필요 없습니다.

비유하자면 자동차 엔진만 바꾸는 것과 같습니다. 핸들, 기어, 계기판은 그대로인데 연료 소비가 10분의 1로 줄어듭니다. 일상 개발 작업(주석 추가, 리팩토링, 간단한 버그 수정)은 Qwen으로 돌리고, 복잡한 아키텍처 설계만 Claude로 남기는 하이브리드 전략이 가능해집니다.

OpenClaw 통합

QJC에서 자주 쓰는 OpenClaw(구 Moltbot/Clawdbot)도 Qwen3.6을 지원합니다. ~/.openclaw/openclaw.json에 provider를 추가하면 됩니다.

{
  "providers": {
    "modelstudio": {
      "baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": ["qwen3.6-flash", "qwen3.6-max"]
    }
  },
  "defaultProvider": "modelstudio"
}

API 키는 Alibaba Cloud Model Studio 콘솔에서 발급받습니다. OpenAI 호환 모드이므로 기존 OpenAI SDK 코드도 그대로 동작합니다.

Qwen Code: 공식 CLI

Qwen 팀이 직접 만든 CLI 도구 Qwen Code는 npm으로 설치합니다.

npm install -g @qwen/code
qwen code init
qwen code chat "리팩토링 계획 세워줘"

Claude Code와 거의 동일한 CLI UX를 제공하며, 로컬 파일 편집과 bash 도구를 기본 탑재했습니다.

로컬 배포 옵션

알리바바 클라우드 외에도 로컬 실행 옵션이 세 가지 있습니다.

Hugging Face 가중치 다운로드 Qwen/Qwen3.6-35B-A3B 저장소에서 safetensors 파일을 받고 vLLM으로 서빙합니다. 24GB VRAM GPU 한 장이면 FP8 양자화로 충분히 돌아갑니다.
ModelScope (중국 사용자) 중국 내 사용자는 알리바바의 ModelScope 플랫폼에서 더 빠른 다운로드 속도를 얻습니다.
Ollama / LM Studio 출시 수일 내에 Ollama 공식 모델 카탈로그에 등록될 예정입니다. ollama run qwen3.6-35b-a3b 한 줄로 로컬 서빙이 가능해집니다.

하드웨어별 성능 참고:

RTX 4090 (24GB VRAM): FP8 양자화, 초당 196토큰
M4 Max (64GB RAM): 초당 60~70토큰
M3 Ultra (192GB RAM): FP16 풀 정밀도, 초당 90~100토큰

Qwen3.5와의 차이: 무엇이 바뀌었나

Qwen3.5-35B-A3B에서 Qwen3.6-35B-A3B로 넘어오며 바뀐 주요 지점은 다음과 같습니다.

네이티브 멀티모달 통합: Qwen3.5는 VL 버전이 별도 모델이었습니다. Qwen3.6은 텍스트와 비전을 단일 모델에서 처리합니다.
Thinking 모드 재설계: 더 짧은 체인으로 더 정확한 결과를 내도록 재학습되었습니다.
에이전틱 벤치마크 대폭 향상: SWE-bench Verified +3.4, Terminal-Bench +11.0, QwenWebBench +30.9%.
Claude API 포맷 공식 지원: Qwen3.5는 OpenAI 호환만 지원했으나, Qwen3.6은 Anthropic Messages API까지 네이티브 지원합니다.

실무 도입 체크리스트

Qwen3.6-35B-A3B를 실제로 도입할 때 고려할 사항을 정리합니다.

비용 모델 검토: Alibaba Cloud Model Studio API vs 로컬 GPU vs 하이브리드. 월 1만 건 이하 호출이면 API, 그 이상은 로컬 운영이 유리합니다.
데이터 주권 요건 확인: 국내법상 해외 클라우드 호출이 제한되는 데이터는 로컬 배포로 처리합니다.
벤치마크 재현 테스트: 자사 코드베이스로 SWE-bench 유사 테스트를 만들어 실측합니다. 공식 수치와 실무 성능은 도메인에 따라 달라집니다.
Fallback 전략: Qwen이 실패하는 특정 태스크(극한 창의성, 한국어 문화 뉘앙스 등)를 식별하고 Claude로 폴백할 기준을 정합니다.
모니터링 지표: 토큰당 비용, 평균 응답 시간, 태스크 완료율을 기존 Claude 기준선과 비교 로깅합니다.

결론: 오픈소스 AI의 티핑 포인트

Qwen3.6-35B-A3B의 의미는 단순한 벤치마크 기록 경신을 넘어섭니다. 이번 출시로 확인된 사실은 세 가지입니다.

첫째, MoE 아키텍처가 성숙했습니다. 30억 활성 파라미터가 270억 덴스 모델을 이기는 건 더 이상 예외가 아닌 표준이 될 것입니다.

둘째, 오픈소스가 클로즈드 모델의 특정 영역을 추월했습니다. 비전-언어와 에이전틱 코딩에서 Qwen이 Claude Sonnet 4.5를 앞섰다는 건, 이제 "돈을 내는 게 무조건 낫다"는 공식이 깨졌다는 뜻입니다.

셋째, Claude Code 사용자에게 실질적 선택지가 생겼습니다. 환경변수 두 줄 바꿔서 비용을 10분의 1로 줄일 수 있다면, 적어도 일상 개발 작업의 상당 부분은 Qwen으로 옮겨도 손해가 없습니다.

QJC에서는 이번 주부터 OpenClaw에 Qwen3.6을 백업 provider로 등록하고, 일주일간 A/B 테스트를 돌려볼 계획입니다. 결과는 다음 분석 글에서 공유하겠습니다.

https://qwen.ai/blog?id=qwen3.6-35b-a3b

Qwen3.6-35B-A3B 분석: 30억 활성 파라미터로 Claude Sonnet 4.5를 넘어선 오픈소스 MoE 모델

Qwen3.6-35B-A3B 분석: 30억 활성 파라미터로 Claude Sonnet 4.5를 넘어선 오픈소스 MoE 모델

왜 Qwen3.6-35B-A3B 출시가 중요한가

에이전틱 코딩 벤치마크: Terminal-Bench 2.0 신기록

preserve_thinking: 에이전틱 작업의 숨은 기능

지식 추론과 멀티모달: 클로즈드 모델과의 정면 대결

Claude Code 통합: 환경변수 두 줄로 전환

OpenClaw 통합

Qwen Code: 공식 CLI

로컬 배포 옵션

Qwen3.5와의 차이: 무엇이 바뀌었나

실무 도입 체크리스트

결론: 오픈소스 AI의 티핑 포인트

댓글 (0)

관련 글

댓글 (0)

관련 글