Voicebox: 무료 오픈소스 음성 AI로 ElevenLabs를 대체하는 법

매달 음성 SaaS 구독료로 빠져나가는 돈, 한번 계산해 보신 적 있나요? ElevenLabs로 나레이션을 만들고, Wispr Flow로 받아쓰기를 하면 두 구독을 합쳐 월 최소 $37가 나갑니다. 그런데 이 둘을 한 앱에서, 무료로, 그것도 내 컴퓨터 안에서만 돌리는 오픈소스 음성 AI가 등장했습니다. 바로 Voicebox입니다. GitHub 스타가 32,447개(2026-06-23 기준)까지 치솟은 이 도구가 왜 주목받는지, AI 자동화와 에이전트로 일하는 분들에게 어떤 의미인지 풀어보겠습니다.

Voicebox란 무엇인가요?

Voicebox는 음성 출력(ElevenLabs)과 음성 입력(Wispr Flow)을 한 앱에 합친 무료·오픈소스·로컬 TTS 음성 스튜디오입니다. 클라우드로 음성을 전송하지 않고 전부 내 기기 안에서 처리하는 local-first 구조라, 음성 데이터가 외부 서버로 단 한 글자도 나가지 않습니다.

공식 슬로건은 "The open-source AI voice studio. Clone, dictate, create."입니다. 핵심은 두 개의 유료 SaaS를 선택사항으로 만드는 것이죠. 한쪽에서는 ElevenLabs처럼 텍스트를 음성으로 바꾸고(TTS), 다른 한쪽에서는 Wispr Flow처럼 말한 내용을 받아쓰기로 옮깁니다. 두 기능이 하나의 데스크톱 앱에 들어 있고, 비용은 0원입니다.

만든 사람은 Jamie Pine — 오픈소스 파일 매니저 Spacedrive를 만든 캐나다 개발자입니다. 빌드는 Electron이 아니라 Tauri(Rust) 기반이라 앱이 가볍고, 라이선스는 MIT여서 상업적으로 자유롭게 쓰고 수정할 수 있습니다. 2026-04-25에 나온 v0.5.0(오늘 기준 약 59일 전)에서 단순 음성 클로닝 도구를 넘어 입력·출력을 모두 갖춘 완전한 음성 플랫폼으로 확장됐습니다.

7개 TTS 엔진과 음성 클로닝, 무엇이 들어 있나요?

Voicebox가 단순한 ElevenLabs 흉내가 아닌 이유는 엔진 선택지에 있습니다. 용도에 맞게 7개 TTS 엔진을 골라 쓸 수 있어요.

엔진	특징
Qwen3-TTS	0.6B / 1.7B, 10개 언어
Qwen CustomVoice	9개 프리셋
LuxTTS	영어, 약 1GB VRAM, CPU에서 150배 실시간
Chatterbox Multilingual	23개 언어
Chatterbox Turbo	영어, 350M, [laugh]·[sigh] 같은 태그 지원
HumeAI TADA	1B / 3B, 700초+ 일관 오디오
Kokoro	50개 프리셋, 82M — CPU에서도 쓸 만함

여기에 음성 클로닝도 zero-shot 방식입니다. 몇 초짜리 레퍼런스 오디오만 있으면 내 목소리를 복제하고, 50개가 넘는 프리셋 보이스도 바로 쓸 수 있습니다. 언어는 23개를 지원하고요.

길이 제한도 사실상 없습니다. 자동 청킹(100~5,000자)과 크로스페이드로 최대 50,000자까지 이어 붙이고, pitch·reverb·delay·chorus 같은 후처리 효과 8종(Spotify pedalboard 기반)까지 얹을 수 있습니다. 팟캐스트나 내러티브용 멀티트랙 타임라인 편집기(Stories editor)도 들어 있어, 콘텐츠 제작 도구로서 구색이 꽤 탄탄합니다.

코딩 에이전트가 내 목소리로 말한다 (MCP 연동)

여기가 AI 자동화·에이전트로 일하는 분들에게 가장 직접적인 포인트입니다. Voicebox는 MCP(Model Context Protocol) 서버를 내장하고 있어서, Claude Code나 Cursor 같은 코딩 에이전트가 내가 클론한 목소리로 응답을 읽어줍니다.

설정은 한 줄이면 끝납니다.

claude mcp add voicebox --transport http \
  --url http://127.0.0.1:17493/mcp \
  --header "X-Voicebox-Client-Id: claude-code"

이렇게 연결하면 voicebox.speak 도구 하나로 에이전트가 음성으로 말합니다. voicebox.transcribe로 받아쓰기도 되고요. 흥미로운 건 X-Voicebox-Client-Id 헤더로 도구마다 다른 목소리를 고정할 수 있다는 점입니다. 예를 들어 Claude Code는 Morgan 목소리, Cursor는 Scarlett 목소리처럼 바인딩하면, 어느 에이전트가 말하는지 소리만 듣고도 구분됩니다.

지원 대상은 Claude Code, Cursor, Cline, Windsurf, VS Code MCP 확장 등 MCP를 이해하는 에이전트 전부입니다. 코드를 보면서 에이전트의 진행 상황을 귀로 듣는 멀티태스킹, 클라우드 음성 API 비용·프라이버시 걱정 없이 로컬에서 끝나는 페어프로그래밍 — 1인 기업이나 개발자에게 실질적인 작업 경험을 바꾸는 부분입니다.

비용과 프라이버시, 진짜 얼마나 절약될까요?

가장 와닿는 건 역시 돈 이야기죠. 상용 서비스와 직접 비교해 보겠습니다.

항목	ElevenLabs	Wispr Flow	Voicebox
모델	구독형 SaaS(클라우드)	구독형 SaaS(클라우드)	무료·오픈소스·로컬
대표 가격	Creator $22/월, Pro $99/월	Pro $15/월 ($144/년)	$0 (건당 과금 없음)
데이터 처리	자사 서버 처리	클라우드 처리	기기 내, 비전송·오프라인

가격은 2026-06-01 기준 공식 가격 페이지에서 확인한 수치입니다(오늘 기준 약 22일 전). ElevenLabs는 Creator $22/월부터 Pro $99/월까지, Wispr Flow는 Pro $15/월($144/년) 구독이 듭니다. 두 SaaS를 함께 쓰면 매달 최소 $37에서 $114까지 나가는 셈이죠. Voicebox는 이걸 무료 로컬 앱 하나로 대체합니다. 구독료는 변동될 수 있으니 실제 도입 전 가격 페이지를 다시 확인하시는 게 좋습니다.

비용만큼 중요한 게 프라이버시입니다. 음성 데이터가 외부로 나가지 않으니 민감한 녹음을 다룰 때 마음이 편하고, 오프라인에서도 돌아갑니다. 2026년 들어 로컬·온디바이스 음성 AI는 클라우드와의 품질 격차가 대부분의 용도에서 거의 사라진 단계로 평가받습니다. Kokoro-82M이 "2026 골드 스탠다드"로 꼽히고, 통합 데스크톱 UX 진입점으로서 Voicebox가 그 흐름의 한가운데에 있습니다.

도입 전 꼭 확인할 한계 — GPU 요구사항

장점만 보고 덜컥 깔았다가 실망하지 않으려면 하드웨어 조건을 짚어야 합니다. Voicebox의 진짜 진입장벽은 비용이 아니라 GPU입니다.

Qwen3-TTS처럼 응답성 있는 생성에는 8GB+ VRAM GPU 권장
3B 파라미터 모델은 12GB+ VRAM 필요
GPU 없이 CPU만 쓰면 엔진·텍스트 길이에 따라 5~50배 느려집니다 (Kokoro만 CPU에서 실용적)
NVIDIA용 CUDA는 설치 파일 비대화를 막으려고 메인 패키지에 미번들 → 별도 구성 필요

플랫폼은 macOS(MLX/Metal, Apple Neural Engine 가속), Windows(CUDA), Linux, AMD ROCm, Intel Arc, NVIDIA Blackwell(RTX 50 시리즈), Docker까지 폭넓게 지원합니다. 다만 세부 플랫폼별 바이너리 제공 범위는 GitHub 릴리스 페이지에서 직접 확인하시는 걸 권합니다. 결국 클라우드의 강점(설치 불필요·즉시 사용·일관된 품질)을 Voicebox는 로컬 셋업과 하드웨어 부담으로 맞바꾸는 구조입니다. 적당한 GPU가 있다면 비용·프라이버시 면에서 충분히 남는 장사입니다.

마무리

Voicebox는 "구독형 음성 SaaS 2개"를 "무료 로컬 앱 1개"로 줄이는 현실적인 ElevenLabs 대안이자 Wispr Flow 대안입니다. 7개 TTS 엔진, 23개 언어, zero-shot 음성 클로닝에 더해 MCP 내장으로 Claude Code가 내 목소리로 말하게 만드는 부분은, AI 자동화·에이전트로 일하는 분들에게 특히 매력적입니다. GPU 8GB+ VRAM이라는 조건만 충족된다면, 오픈소스 음성 AI로 비용을 0에 가깝게 끌어내리면서 프라이버시까지 챙길 수 있습니다.

콘텐츠 제작 비용을 줄이고 싶거나, 에이전트 작업 환경을 한 단계 끌어올리고 싶으시다면 한번 직접 깔아보세요. 궁금한 점은 댓글로 남겨주시면 함께 이야기 나누겠습니다.

자주 묻는 질문 (FAQ)

Q: Voicebox는 정말 완전 무료인가요?

네, MIT 라이선스의 오픈소스라 건당 과금이 전혀 없습니다. 모든 처리가 내 기기에서 로컬로 돌아가기 때문에 API 사용료나 월 구독료가 들지 않습니다. 다만 실용적인 속도를 내려면 8GB 이상 VRAM을 가진 GPU가 필요합니다.

Q: ElevenLabs와 비교해 음질이 떨어지지 않나요?

2026년 기준 로컬·온디바이스 음성 AI는 클라우드와의 품질 격차가 대부분의 용도에서 거의 사라진 것으로 평가됩니다. Kokoro-82M이 "2026 골드 스탠다드"로 꼽힐 정도이고, Voicebox는 7개 엔진을 용도별로 골라 쓸 수 있어 상황에 맞는 품질을 확보할 수 있습니다.

Q: Claude Code에서 어떻게 연동하나요?

Voicebox를 실행한 뒤 claude mcp add voicebox --transport http --url http://127.0.0.1:17493/mcp 한 줄이면 MCP 서버가 연결됩니다. 이후 voicebox.speak 도구로 에이전트가 음성으로 응답하고, X-Voicebox-Client-Id 헤더로 도구별 목소리를 고정할 수도 있습니다.

Voicebox: 무료 오픈소스 음성 AI로 ElevenLabs를 대체하는 법