본문으로 건너뛰기
블로그로 돌아가기뉴스

OpenAI GPT-Realtime-2 출시: 음성 AI가 드디어 추론한다 (2026년 완전 분석)

14분 읽기0

OpenAI GPT-Realtime-2 출시: 음성 AI가 드디어 추론한다 (2026년 완전 분석)

음성 AI는 오랫동안 "받아쓰기 기계"였습니다. 말하면 글자로 바꿔주는 것, 그게 전부였죠. 2026년 5월 7일, OpenAI가 그 공식을 완전히 깨뜨렸습니다.

GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper — 이름조차 낯선 3개의 모델이 Realtime API에 동시 공개됐습니다. 이 모델들이 특별한 이유는 단 하나입니다. 음성 인터페이스가 이제 추론(reason)·번역(translate)·전사(transcribe)를 실시간으로 동시에 수행합니다. 단순한 업그레이드가 아니라, 음성 AI의 세대 교체입니다.


Voice AI가 더 이상 받아쓰기 도구가 아닌 이유

기존 음성 AI를 비유하자면 "성실한 속기사"였습니다. 말하는 것을 틀리지 않게 받아 적는 것이 최선이었죠. GPT-Realtime-2는 이 비유를 바꿉니다. 이제 음성 AI는 생각하는 동료에 가깝습니다.

OpenAI는 이번 발표에서 음성 인터페이스의 3가지 새로운 패턴을 정의했습니다.

  • Voice-to-Action: 사용자가 말하면 시스템이 추론하고 도구를 호출해 작업을 완료합니다. "내 BuyAbility 안에서 번잡한 도로는 피하고 토요일 투어 예약해 줘" — Zillow가 실제로 구현한 시나리오입니다.
  • Systems-to-Voice: 시스템 컨텍스트를 능동적으로 음성 안내로 변환합니다. 항공편이 지연됐을 때 앱이 먼저 "탑승 항공편이 지연됐지만 환승은 가능합니다. 새 게이트와 가장 빠른 경로를 찾았고, 짐도 환승 처리됩니다"라고 말하는 방식입니다.
  • Voice-to-Voice: 라이브 대화를 언어와 맥락 변화 사이에서 이어줍니다. Deutsche Telekom이 고객이 모국어로 말하면 모델이 실시간 번역해 상담을 이어가는 방식으로 활용하고 있습니다.

이 3가지 패턴은 "사람이 말한다 → AI가 듣는다"에서 "사람이 말한다 → AI가 판단하고 행동한다"로의 전환을 보여줍니다.


GPT-Realtime-2: GPT-5급 추론을 가진 음성 모델

GPT-Realtime-2는 Realtime API에서 사용할 수 있는 첫 GPT-5급 추론 음성 모델입니다. 단순 응답을 넘어 병렬 도구 호출, 우아한 실패 복구, 128K 컨텍스트로 긴 대화를 처리합니다.

이번 릴리스에서 GPT-Realtime-2에 추가된 7가지 능력을 구체적으로 살펴보겠습니다.

1. Preambles (음성 전조) "잠시만요, 확인해 볼게요"처럼 짧은 음성 신호를 내보냅니다. 사용자는 AI가 무언가를 처리 중이라는 것을 소리로 인지합니다. 침묵 대신 소통입니다.

2. Parallel tool calls + 투명성 여러 도구를 동시에 호출하면서 "달력을 확인 중입니다", "검색하고 있어요"처럼 행동을 실시간으로 음성 보고합니다. 사용자 경험에서 체감 대기 시간이 크게 줄어드는 효과가 있습니다.

3. Recovery behavior (우아한 실패 복구) 기존 모델은 오류가 나면 침묵하거나 어색하게 멈췄습니다. GPT-Realtime-2는 "지금은 그게 잘 안 되네요"처럼 자연스럽게 실패를 안내합니다.

4. 컨텍스트 32K → 128K (4배 확장) 이전 모델 대비 컨텍스트 창이 4배 늘었습니다. 긴 세션과 복잡한 에이전트 워크플로우를 단일 세션 안에서 처리할 수 있습니다.

5. 도메인 이해 강화 의료 용어, 고유 명사, 전문 어휘를 정확하게 보존합니다. 의료·법률·금융 버티컬 도입의 실용적 문턱이 낮아졌습니다.

6. Tone 제어 평온·공감·활기 — 상황에 맞는 어조를 조절할 수 있습니다. CS 봇이 불만 고객에게 공감하는 톤으로, 교육 봇이 격려하는 톤으로 말하게 설정할 수 있습니다.

7. 5단계 추론 강도 minimal · low(default) · medium · high · xhigh 5단계로 추론 깊이를 조절합니다. 지연 시간과 추론 품질 사이의 트레이드오프를 개발자가 직접 제어하는 구조입니다.


벤치마크가 말하는 것: 96.6%의 의미

숫자만 봐서는 의미가 없습니다. 맥락이 필요합니다.

GPT-Realtime-2(high)는 Big Bench Audio 벤치마크에서 **96.6%**를 기록했습니다. GPT-Realtime-1.5의 81.4%에서 15.2%p 향상입니다. Big Bench Audio는 artificialanalysis.ai가 음성 입력 LLM의 추론 능력을 평가하는 지표입니다. 단순 인식 정확도가 아니라 음성으로 입력된 질문을 얼마나 잘 이해하고 추론하는지를 측정합니다.

다회차 대화 지능을 평가하는 Audio MultiChallenge(Scale AI labs)에서는 xhigh 설정으로 **48.5%**를 달성했습니다. 1.5 모델의 34.7%에서 13.8%p 오른 수치입니다.

두 벤치마크 모두에서 두 자릿수 포인트 향상이 동시에 일어났다는 점이 중요합니다. 특정 영역만 개선된 것이 아니라, 음성 추론의 전반적인 질이 올라갔다는 신호입니다.


GPT-Realtime-Translate: 70개 언어 라이브 번역

GPT-Realtime-Translate는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역합니다. 화자의 속도에 맞춰 의미를 보존하면서 지역 발음과 전문 용어까지 처리합니다.

Deutsche Telekom은 이 모델로 다국어 고객 상담을 구현하고 있습니다. 고객은 자신의 모국어로 말하고, 모델이 실시간으로 번역해 상담을 이어갑니다.

인도 음성 AI 스타트업 BolnaAI의 공동창업자 겸 CTO Prateek Sachan은 이렇게 말했습니다. "Hindi·Tamil·Telugu에서 다른 모든 테스트 모델 대비 WER(Word Error Rate)이 12.5% 더 낮았고, fallback 비율도 더 낮고, 작업 완료율과 자연스러운 대화 지속을 위한 지연 시간이 모두 우수했습니다."

Vimeo는 제품 교육 영상을 재생 중에 라이브로 번역하는 시연을 선보였습니다. 별도의 더빙 작업 없이 글로벌 고객이 모국어로 영상을 즉시 시청할 수 있는 방식입니다. 영상 현지화 비용과 납기가 동시에 사라지는 시나리오입니다.

가격: $0.034/분 (1시간 약 $2.04)


GPT-Realtime-Whisper: $0.017/분의 스트리밍 STT

GPT-Realtime-Whisper는 화자가 말하는 동안 실시간으로 텍스트를 전사합니다. 분당 $0.017이라는 가격은 1시간 전사에 약 $1.02가 든다는 의미입니다.

기존 Whisper 모델이 파일 업로드 후 전사하는 방식이었다면, GPT-Realtime-Whisper는 스트리밍입니다. 말하는 동안 텍스트가 실시간으로 생성됩니다.

활용 시나리오는 광범위합니다.

  • 회의·교실·방송·이벤트 자막: 동시 자막이 필요한 모든 환경
  • 회의록 동시 작성: 회의가 끝나는 동시에 정리된 회의록 생성
  • 음성 에이전트의 연속적 사용자 이해: 사용자가 말하는 동안 에이전트가 의도를 파악
  • CS·헬스케어·세일즈·리크루팅 후속 워크플로우: 상담 내용을 즉시 CRM에 기록

가격: $0.017/분 (1시간 약 $1.02)


Voice AI의 3가지 새 패턴이 바꾸는 것

OpenAI가 정의한 3가지 패턴(Voice-to-Action, Systems-to-Voice, Voice-to-Voice)은 단순한 분류 체계가 아닙니다. 각 패턴은 기존에 텍스트 UI나 앱 화면이 담당하던 영역을 음성으로 대체하는 구체적인 경로를 보여줍니다.

특히 Systems-to-Voice 패턴은 흥미롭습니다. Priceline 사례가 이를 잘 보여줍니다. 탑승 항공편이 지연됐을 때, 앱이 먼저 음성으로 말합니다. "탑승 항공편이 지연됐지만 환승은 가능합니다. 새 게이트와 가장 빠른 경로를 찾았고, 짐도 환승 처리됩니다." 사용자가 앱을 열고 확인하기 전에, 시스템이 이미 판단하고 안내한 것입니다.

이것은 "알림 → 사용자 행동"에서 "시스템 판단 → 음성 안내 → 사용자 확인"으로의 전환입니다. 인터랙션 흐름 자체가 역전됩니다.


Zillow가 26%p 끌어올린 방법

Zillow SVP Head of AI인 Josh Weisberg의 사례는 수치가 구체적이어서 주목할 만합니다.

Zillow는 부동산 음성 에이전트에 GPT-Realtime-2를 도입했습니다. "내 BuyAbility 안에서, 번잡한 도로는 피하고, 토요일 투어 예약해 줘"처럼 복합적인 음성 명령을 처리하는 에이전트입니다.

결과는 가장 까다로운 적대적 벤치마크에서 call success rate 69% → 95%, 즉 +26%p 향상이었습니다. 프롬프트 최적화 후 수치입니다. Fair Housing 컴플라이언스도 함께 강화됐다고 밝혔습니다.

이 수치가 중요한 이유는 "적대적 벤치마크"라는 조건입니다. 일반적인 테스트가 아니라, 에이전트가 실패하도록 설계된 시나리오에서의 성공률입니다. 프로덕션 환경에서의 실질적인 견고성을 보여주는 지표입니다.


가격: 누가 흑자를 낼 수 있는가

GPT-Realtime-2의 기본 가격은 1M 토큰 기준 audio input $32, audio output $64입니다. 첫눈에는 높아 보입니다.

그런데 cached input 가격이 $0.40입니다. 기본 $32 대비 80배 할인입니다.

cached input은 반복 사용되는 시스템 프롬프트·툴 정의를 매번 재청구하지 않는 장치입니다. 프로덕션 환경에서는 시스템 프롬프트가 매 세션마다 동일하게 전달됩니다. 이 부분이 $32가 아닌 $0.40으로 처리된다는 것은, 실제 운영 단가가 토큰 구성에 따라 극적으로 낮아질 수 있음을 의미합니다.

모델가격1시간 환산
GPT-Realtime-2$32/1M input · $64/1M output (cached $0.40)세션 구성에 따라 상이
GPT-Realtime-Translate$0.034/분~$2.04
GPT-Realtime-Whisper$0.017/분~$1.02

GPT-Realtime-Whisper의 $0.017/분은 경쟁력이 뚜렷합니다. 1시간 $1.02로 실시간 전사 인프라를 운영할 수 있다면, 회의 자동화·CS 로그·교육 자막 영역에서 흑자 모델을 설계하기가 훨씬 수월해집니다.


한국 개발자가 오늘 시작하는 법

진입 경로는 두 가지입니다.

1. Playground에서 즉시 체험 https://platform.openai.com/audio/realtime 에서 GPT-Realtime-2를 바로 사용해볼 수 있습니다. API 키만 있으면 됩니다.

2. Codex로 스캐폴딩 자동 생성 OpenAI Codex에 한 번의 프롬프트를 입력하면 Realtime 2 WebRTC 음성 에이전트의 기본 구조가 생성됩니다. /v1/realtime/calls multipart FormData, RTCPeerConnection, oai-events 데이터 채널 연동이 포함된 코드입니다.

안전성 측면에서는 Active classifier가 Realtime API 세션 위에서 동작해 유해 콘텐츠 가이드라인 위반 시 대화를 중단합니다. Agents SDK를 통해 개발자가 추가 guardrail을 부착할 수도 있습니다. EU Data Residency도 지원합니다.

한 가지 주의사항 — OpenAI 사용 정책상 AI 상호작용임을 사용자에게 명시해야 합니다(맥락상 자명한 경우 제외). 한국 서비스에 도입할 때 이 부분을 설계 단계에서 반영해야 합니다.


마무리

받아쓰기 도구 → 통역사 → 생각하는 동료. 음성 AI의 진화 경로가 이번 발표로 한 단계 명확해졌습니다.

GPT-Realtime-2는 추론합니다. GPT-Realtime-Translate는 70개 언어를 실시간으로 잇습니다. GPT-Realtime-Whisper는 $0.017/분으로 말하는 동안 글자를 만들어냅니다.

Zillow의 +26%p는 하나의 데이터 포인트지만, 이 숫자가 보여주는 방향은 분명합니다. 음성 인터페이스를 진지하게 도입한 팀이 측정 가능한 비즈니스 성과를 내기 시작했습니다.

오늘 Playground에서 한 번 직접 말을 걸어보세요. 답이 돌아오는 방식이 다릅니다.


자주 묻는 질문 (FAQ)

Q: GPT-Realtime-2는 기존 GPT-4o 음성과 어떻게 다른가요?

GPT-Realtime-2는 GPT-5급 추론 능력을 음성 인터페이스에 결합한 첫 모델입니다. 가장 큰 차이는 세 가지입니다. 첫째, 컨텍스트가 32K에서 128K로 4배 늘었습니다. 둘째, 병렬 도구 호출과 행동 투명성이 추가됐습니다. 셋째, 5단계 추론 강도로 지연 시간과 품질 사이의 트레이드오프를 개발자가 직접 제어할 수 있습니다. Big Bench Audio 기준으로 GPT-Realtime-1.5 대비 15.2%p 향상이 측정됐습니다.

Q: GPT-Realtime-Translate는 한국어를 지원하나요?

70개 이상의 입력 언어를 지원하며 한국어가 포함됩니다. 출력 언어는 13개입니다. 한국어 입력을 다른 언어로 번역하거나, 다국어 입력을 한국어로 번역하는 방향 모두 가능합니다. 단, 출력 지원 13개 언어의 구체적인 목록은 공식 문서(https://developers.openai.com/api/docs/models/gpt-realtime)에서 확인하시기 바랍니다.

Q: cached input $0.40이 실제 운영 비용에 얼마나 영향을 미치나요?

시스템 프롬프트와 툴 정의가 전체 입력 토큰에서 차지하는 비중에 따라 크게 달라집니다. 복잡한 에이전트 워크플로우에서는 시스템 프롬프트가 매 세션 입력 토큰의 30-50%를 차지하기도 합니다. 이 부분이 $32 대신 $0.40으로 처리되면 실제 단가가 기본 가격 대비 수십 % 낮아질 수 있습니다. 프로덕션 배포 전에 자신의 워크플로우에서 캐시 히트율을 측정해보는 것을 권장합니다.

Q: GPT-Realtime-Whisper와 기존 Whisper API의 차이는 무엇인가요?

기존 Whisper API는 파일을 업로드하면 전사를 반환하는 배치 방식입니다. GPT-Realtime-Whisper는 스트리밍 방식으로, 화자가 말하는 동안 실시간으로 텍스트가 생성됩니다. 회의 자막, 라이브 이벤트 자막, 음성 에이전트의 실시간 이해 등 "말하는 동안 텍스트가 필요한" 모든 시나리오에 적합합니다. 가격은 $0.017/분으로, 1시간 전사에 약 $1.02입니다.

Q: 한국 서비스에 도입할 때 법적으로 주의해야 할 사항이 있나요?

OpenAI 사용 정책에 따라 AI와 상호작용하고 있음을 사용자에게 명시해야 합니다. 맥락상 자명한 경우(예: AI 챗봇임을 앱 UI에서 이미 명시한 경우)는 예외입니다. 국내 서비스에서는 개인정보보호법상 음성 데이터 처리 동의, AI 의사결정 고지 의무도 함께 검토가 필요합니다. EU Data Residency를 지원하므로 데이터 거주지 요건이 있는 엔터프라이즈 고객에게도 대응이 가능합니다.

Q: 5단계 추론 강도는 어떻게 설정하나요?

Realtime API 요청 파라미터에서 reasoning 레벨을 minimal, low(기본값), medium, high, xhigh 중 선택합니다. 레벨이 높을수록 추론 품질이 높아지는 대신 응답 지연이 늘어납니다. 빠른 응답이 중요한 CS 시나리오에서는 low, 복잡한 다단계 추론이 필요한 에이전트에서는 highxhigh를 권장합니다. Big Bench Audio 96.6%는 high 설정, Audio MultiChallenge 48.5%는 xhigh 설정에서 측정된 수치입니다.

Q: 기업 수준의 사용량에서 안전성은 어떻게 보장되나요?

Realtime API 세션 위에 Active classifier가 동작해 유해 콘텐츠 가이드라인 위반 시 자동으로 대화를 중단합니다. 개발자는 Agents SDK(openai-agents-js/guardrails)를 통해 비즈니스 요구에 맞는 추가 guardrail을 부착할 수 있습니다. spam·deception 사용은 정책상 금지이며, EU Data Residency와 enterprise privacy commitment도 적용됩니다.


참고 자료 (Sources)

Tier 0 (공식)

Tier 1 (1차 보도)

  • TechCrunch — OpenAI launches new voice intelligence features in its API (2026-05-07)
  • 9to5Mac — OpenAI has new voice models that reason, translate, and transcribe as you speak (2026-05-07)