딥시크 V4 오픈웨이트 출시: 1.6T 파라미터를 1/6 가격에, 화웨이 칩으로 학습한 첫 프론티어급 모델

2026년 4월 24일, 딥시크가 V4를 오픈웨이트로 공개했다. 단순한 모델 업데이트가 아니다. 가격은 1/6 수준으로 떨어졌고, 컨텍스트는 8배 늘었으며, NVIDIA 칩 없이 화웨이 Ascend 950PR만으로 학습했다. 라이선스는 MIT다.

비유하자면, 자동차 시장에서 페라리급 성능의 차가 경차 가격으로 나온 셈이다. 게다가 도면(가중치)까지 공개됐다. 한국의 AI 도입 비용 구조와 인프라 전략 자체가 다시 짜야 하는 국면이다.

이번 글에서는 V4의 기술적 변화, 가격 충격, 한국 시장 시사점을 정리한다.

V4 출시 정보 한 장 요약

V4는 두 가지 변종으로 동시 출시됐다.

항목	V4-Pro	V4-Flash
총 파라미터	1.6T	284B
활성 파라미터	49B	13B
컨텍스트	1M 토큰	1M 토큰
API 입력 가격	$1.74/1M	$0.14/1M
API 출력 가격	$3.48/1M	$0.28/1M
라이선스	MIT	MIT
학습 하드웨어	화웨이 Ascend 950PR	화웨이 Ascend 950PR
배포	HuggingFace 오픈웨이트	HuggingFace 오픈웨이트

V3.2(685B 파라미터, 128K 컨텍스트)와 비교하면 파라미터는 2.4배, 컨텍스트는 8배 확장됐다. 그런데도 추론 비용이 더 낮아졌다. 어떻게 가능했는지는 뒤에서 풀어본다.

가격 충격: 같은 작업을 1/6 비용에

가격을 정면으로 비교하면 시장 충격의 크기가 명확해진다.

모델	입력 (1M 토큰)	출력 (1M 토큰)	V4-Pro 대비
Claude Opus 4.7	$15.00	$75.00	약 22배 비쌈
GPT-5.5	$5.00	$30.00	약 9배 비쌈
DeepSeek V4-Pro	$1.74	$3.48	기준
DeepSeek V4-Flash	$0.14	$0.28	1/12 수준

월 1억 토큰을 처리하는 SaaS 서비스를 가정해 보자. Claude Opus 4.7로 운영하면 월 약 900만 원이 든다. V4-Pro로 옮기면 같은 워크로드가 약 50만 원으로 떨어진다. 차액으로 풀스택 개발자 한 명을 더 뽑을 수 있다.

물론 이 비교는 API 가격 기준이다. 오픈웨이트라 자체 인프라에 배포하면 추가 가격 인하 여지가 더 커진다. 다만 1.6T 파라미터를 로컬에서 돌리려면 H100 16~32장 규모의 클러스터가 필요하다. 그래서 일반 기업은 V4-Pro는 API로 쓰고, V4-Flash(284B)는 자체 호스팅하는 하이브리드 구조가 현실적이다.

성능: "근소하게 못 미친다"의 의미

가격이 싸도 성능이 받쳐주지 않으면 이야기가 다르다. 딥시크 자체 기술 보고서는 V4가 GPT-5.4 및 Gemini 3.1 Pro에 "근소하게 못 미친다"고 인정했다. 그 "근소함"이 어느 정도인지 숫자로 보자.

벤치마크	V4-Pro	비교 모델	격차
MMLU	90.1%	Gemini 3.1 Pro ~92%	~2%p
MMLU-Pro	87.5%	Gemini 3.1 Pro 91.0%	3.5%p
HumanEval	90.0%	오픈소스 최상위	동급
SWE-bench Verified	80.6%	오픈소스 최상위	1위
LiveCodeBench	93.5%	오픈소스 최상위	1위
GPQA Diamond	90.1%	Gemini 3.1 Pro 94.3%	4.2%p
GDPval (전문 작업)	1554점	오픈소스 1위, 전체 6위	-

핵심은 이 격차가 "가격이 1/6 수준이라는 점을 감안하면" 환산되는 차이라는 것이다. 코딩 작업에서는 오히려 V4가 오픈/폐쇄 통틀어 최상위권이다. 일반 지식이나 과학 추론에서 약간 뒤처지지만, 대부분의 비즈니스 워크로드는 코딩, 문서 처리, 요약, 분류에 집중되어 있다.

3~6개월의 격차. 그게 딥시크가 인정한 격차의 실체다.

1M 컨텍스트: RAG의 시대가 끝나는가

V3.2에서 V4로 오면서 컨텍스트가 128K에서 1M으로 늘었다. 약 8배 확장이다. 1M 토큰은 어느 정도 분량일까.

한국어 기준 약 70만~100만 단어
책으로는 약 8~15권 분량
평균적인 회사 코드베이스 전체
3년치 계약서 묶음
프로젝트 위키 통째로

지금까지 대용량 문서 처리는 RAG(검색 증강 생성) 구조로 해결해왔다. 문서를 청크로 쪼개고, 임베딩하고, 벡터 DB에 저장하고, 질의 시 관련 청크만 추출해서 LLM에 넣는 방식이다. 복잡한 인프라가 필요했고, 청크 경계에서 정보가 잘리는 문제가 있었다.

V4의 1M 컨텍스트는 많은 경우 RAG 자체를 우회 가능하게 한다. 회사 코드베이스를 통째로 컨텍스트에 넣고 "이 함수 리팩토링해줘"라고 시킬 수 있다. 계약서 50개를 한 번에 넣고 "위약금 조항이 표준에서 벗어난 곳 찾아줘"라고 시킬 수 있다.

물론 비용 측면에서 매번 1M 토큰을 보내는 건 비효율적이다. 그래서 RAG가 사라지진 않는다. 다만 "RAG를 짜기 위한 RAG"는 줄어들 것이다. 단순한 문서 분석은 1M 컨텍스트에 직접 던지고, 복잡한 멀티턴 시스템에서만 RAG를 유지하는 식의 분기가 일반화될 가능성이 높다.

어텐션 구조 혁신: 어떻게 더 길게, 더 가볍게

1M 컨텍스트는 일반적으로 추론 비용을 폭증시킨다. 어텐션 연산이 시퀀스 길이의 제곱으로 늘어나기 때문이다. V4는 이 문제를 어텐션 메커니즘 자체를 갈아엎어 해결했다.

CSA + HCA 하이브리드

V3.2까지는 DSA(DeepSeek Sparse Attention)를 썼다. V4는 두 단계 하이브리드를 도입했다.

CSA (Compressed Sparse Attention): 시퀀스 차원에서 토큰을 그룹으로 묶어 어텐션 연산량을 줄인다.
HCA (Heavily Compressed Attention): 토큰 자체의 차원도 압축해서 KV 캐시 크기를 더 줄인다.

이 두 가지를 결합하니 1M 토큰 컨텍스트에서:

추론 FLOPs: V3.2 대비 27%만 사용
KV 캐시: V3.2 대비 10%만 사용

다시 말해, 컨텍스트 길이는 8배로 늘었는데 GPU 메모리는 V3.2와 거의 비슷한 수준에서 처리할 수 있다는 뜻이다. V4-Flash는 이 효율이 더 극단적이어서 KV 캐시 7%만 사용한다.

Manifold-Constrained Hyper-Connections

추가로 잔차 연결(residual connection)에도 변화가 있었다. 표준 residual 대신 manifold-constrained hyper-connections(mHC)를 도입했다. 이것이 정확히 무엇을 하는지는 기술 보고서를 더 깊이 파야 하지만, 핵심은 깊은 네트워크에서 정보 흐름의 안정성을 보장하면서도 표현력을 늘렸다는 점이다.

엔지니어링 관점에서 보면, 두 가지 의미가 있다.

첫째, V4는 단순히 "V3 더 크게"가 아니다. 모델 아키텍처 자체에 두세 가지 본질적 혁신이 들어가 있다. 둘째, 이 혁신은 모두 "더 길게, 더 가볍게"를 향해 있다. 즉 향후 1M에서 10M으로 컨텍스트가 더 늘어날 때도 계속 쓸 수 있는 구조다.

화웨이 Ascend 950PR: 지정학적 함의

V4가 NVIDIA 칩 없이 화웨이 Ascend 950PR로만 학습됐다는 사실은 기술 발표 이상의 의미를 가진다.

미국은 2022년부터 중국에 대한 첨단 반도체 수출 통제를 강화해왔다. NVIDIA H100, A100급 칩의 중국 수출이 막혔고, H800 같은 약화 버전조차 점진적으로 통제 대상이 됐다. 이 조치는 중국의 AI 발전을 늦추는 것을 목표로 했다.

V4는 그 가설을 정면으로 반박한다.

작년 NVIDIA CEO Jensen Huang은 중국이 자체 AI 칩을 만들어 NVIDIA 의존도를 줄이려는 시도를 두고 "재앙(disaster)"이라고 표현했다. 1년 만에 그 재앙이 실체가 됐다. 1.6T 파라미터, 프론티어급 성능에 근접하는 모델이 화웨이 칩만으로 학습된 것이다.

한국 입장에서는 두 가지 시사점이 있다.

첫째, 중국이 자체 AI 인프라 생태계를 빠르게 완성하고 있다. 화웨이 Ascend 라인은 V4 학습을 통해 실전 검증을 마쳤다. 이는 한국 반도체 산업이 NVIDIA 대안 시장에서 어떤 포지션을 잡을지 재검토해야 한다는 신호다.

둘째, 미국의 수출 통제 효과는 제한적이다. 단기적으로 시간을 벌어줄 수는 있지만, 중장기적으로 중국 AI를 막을 수단이 못 된다는 게 V4로 입증됐다. 한국 정부와 기업의 AI 정책도 "미국 중심" 일변도에서 다극화 시나리오를 준비해야 할 시점이다.

한국 시장 시사점 5가지

V4의 출시가 한국 개발자, 스타트업, 대기업에 어떤 의미인지 다섯 가지로 정리한다.

1. AI 도입 비용 장벽이 한 자릿수로

지금까지 AI 기능을 도입하려는 한국 스타트업이 마주한 가장 큰 벽은 OpenAI/Anthropic API 비용이었다. 월 사용량 1억 토큰만 넘어가도 수백만 원이 나갔다. V4-Flash는 같은 작업을 10~100배 저렴한 비용에 처리한다. AI 기반 SaaS의 단위 경제(unit economics)가 근본적으로 달라진다.

특히 B2C 서비스에서 AI 기능을 무료 티어에 넣을 수 있게 된다. 광고 모델로 수익화하기에 충분한 마진이 나오는 것이다.

2. 소버린 AI가 현실이 된다

MIT 라이선스로 가중치 자체를 받을 수 있다는 건 단순히 비용 문제가 아니다. 데이터 주권 문제다.

금융 거래 데이터를 외부 API에 보낼 수 없는 은행/증권사
환자 진단 기록을 다룰 수 없는 의료 기관
변호인-의뢰인 대화를 보호해야 하는 로펌
정부/공공 기관

이런 조직들은 그동안 AI 도입에 한계가 있었다. V4 가중치를 자체 서버에 배포하면 데이터가 한 번도 외부로 나가지 않는 환경에서 프론티어급 AI를 쓸 수 있다. GDPR, 개인정보보호법 준수 측면에서 게임 체인저다.

3. 한국어/도메인 특화 파인튜닝

MIT 라이선스의 또 다른 의미는 파인튜닝 자유다. V3.2 시절에도 학계와 일부 기업이 파인튜닝만으로 IMO 금메달 수준 수학 추론을 뽑아낸 사례가 있다. V4 베이스에서는 더 큰 가능성이 열린다.

한국어 특화: 한국어 데이터로 파인튜닝하면 영어 대비 한국어 성능 격차를 거의 없앨 수 있다
법률 도메인: 대한민국 판례 + 법령으로 파인튜닝
의료 도메인: 의학 논문 + 임상 가이드라인
금융 도메인: 한국 금융 규정 + 시장 데이터

대학원생 2~~3명 규모의 팀이 클라우드 GPU 1~~2주를 써서 만들 수 있는 수준이다. 한국 AI 생태계에서 도메인 특화 모델 경쟁이 곧 본격화될 것으로 보인다.

4. 1M 컨텍스트 활용 새 패턴

기업용 AI 애플리케이션에서 1M 컨텍스트가 만들어내는 새 가능성은 상당하다.

법률 검토 자동화: 100페이지 계약서 + 회사 표준 약관 + 관련 판례를 한 번에 넣고 "리스크 항목 추출 + 협상 포인트 제안"
코드 리뷰 자동화: 마이크로서비스 30개 코드 전체를 컨텍스트에 넣고 "보안 취약점 + 일관성 위반 + 리팩토링 후보 추출"
재무 분석 자동화: 3년치 분기 보고서 + 동종업계 비교 데이터를 한 번에 넣고 "이상 신호 감지 + 투자 전략 제안"

지금까지 RAG 인프라 구축에 들어가던 엔지니어링 비용이 크게 줄어들 것이다.

5. 코딩 특화 활용

V4는 코딩 벤치마크에서 오픈소스 1위다. SWE-bench Verified 80.6%, LiveCodeBench 93.5%는 폐쇄형 모델 최상위권과 어깨를 나란히 한다. 한국 소프트웨어 기업과 개인 개발자에게 가장 직접적인 효과가 나올 영역이 코딩이다.

특히 V4-Flash($0.14/M 입력)를 코드 생성/리뷰/디버깅 에이전트의 백엔드로 쓰면 비용이 거의 무시할 수준이다. 사내 개발자 한 명당 V4-Flash 기반 AI 페어 프로그래머 1대를 풀타임으로 붙여줘도 월 10만 원도 안 든다.

정리: 무엇이 바뀌었는가

영역	Before V4	After V4
AI API 비용	월 수백만 원이 기본	월 수십만 원으로 충분
데이터 주권	외부 API 의존 불가피	온프레미스 배포로 해결
컨텍스트 한계	128K, RAG 필수	1M, 직접 처리 가능
파인튜닝	라이선스 제한	MIT 라이선스로 자유
학습 하드웨어	NVIDIA 의존	화웨이 Ascend 검증 완료
오픈/폐쇄 격차	6~12개월	3~6개월로 단축

V4는 한 모델의 출시가 아니다. AI 시장의 가격, 라이선스, 인프라, 지정학적 구도 네 가지를 동시에 흔든 사건이다.

폐쇄형 프론티어 모델의 기술 해자는 빠르게 좁혀지고 있다. 6개월 후 V4.5나 V5가 나올 때쯤이면 격차가 더 좁혀질 가능성이 높다. 지금 시점에서 한국의 AI 도입 전략, 인프라 투자 우선순위, 자체 모델 개발 로드맵을 다시 들여다볼 시간이다.

오픈웨이트의 시대가 본격적으로 시작됐다.

참고 자료

본 글은 공개된 자료 기반의 분석이며, 실제 도입 결정은 각 조직의 보안 정책, 컴플라이언스 요건, 기술 환경에 따라 달리 평가해야 한다.

딥시크 V4 오픈웨이트 출시: 1.6T 파라미터를 1/6 가격에, 화웨이 칩으로 학습한 첫 프론티어급 모델

딥시크 V4 오픈웨이트 출시: 1.6T 파라미터를 1/6 가격에, 화웨이 칩으로 학습한 첫 프론티어급 모델

V4 출시 정보 한 장 요약

가격 충격: 같은 작업을 1/6 비용에

성능: "근소하게 못 미친다"의 의미

1M 컨텍스트: RAG의 시대가 끝나는가

어텐션 구조 혁신: 어떻게 더 길게, 더 가볍게

CSA + HCA 하이브리드

Manifold-Constrained Hyper-Connections

화웨이 Ascend 950PR: 지정학적 함의

한국 시장 시사점 5가지

1. AI 도입 비용 장벽이 한 자릿수로

2. 소버린 AI가 현실이 된다

3. 한국어/도메인 특화 파인튜닝

4. 1M 컨텍스트 활용 새 패턴

5. 코딩 특화 활용

정리: 무엇이 바뀌었는가

참고 자료

댓글 (0)

관련 글

댓글 (0)

관련 글