Odyssey-2 Max 분석: Sora를 넘어 '월드 모델'로 가는 AI의 패러다임 전환
Odyssey-2 Max 분석: Sora를 넘어 '월드 모델'로 가는 AI의 패러다임 전환
2026년 4월 21일, 캘리포니아 AI 스타트업 Odyssey가 'Odyssey-2 Max'를 공개했습니다. 회사 측은 이 모델을 단순히 또 하나의 비디오 생성기가 아니라 "사전학습된 물리 지능(pretrained physical intelligence)"이라고 표현했습니다.
표현은 거창하지만 핵심 질문은 단순합니다. Sora, Kling, Veo가 이미 영상 생성을 잘하는데, 왜 또 다른 모델이 필요한가? 답은 아키텍처에 있습니다. Odyssey-2 Max는 영상을 만들기 위한 모델이 아니라, 물리 세계를 시뮬레이션하기 위한 모델입니다. 이 글에서는 그 차이를 기술적으로, 그리고 시장 관점에서 풀어봅니다.
면책 고지: 본 글의 성능 수치(VBench 2, PAI-Bench, 프레임 생성 주기 등)는 Odyssey의 공식 발표를 기반으로 합니다. 현재 모델은 프라이빗 베타로만 제공되며, 일반 사용자나 독립 연구자의 외부 검증은 제한적입니다.
월드 모델은 비디오 모델과 어떻게 다른가
가장 큰 차이는 시간을 처리하는 방식입니다.
Sora, Kling, Veo 같은 비디오 생성 모델은 양방향 어텐션(bidirectional attention)을 사용합니다. 사용자가 프롬프트를 입력한 순간, 모델은 영상의 처음부터 끝까지 전체 시퀀스를 한 번에 계산해 출력합니다. 이 방식의 장점은 시각적 일관성과 영화적 품질입니다. 결말이 처음부터 결정되어 있기 때문에 화면 흐름이 매끄럽습니다. 단점은 명확합니다. 영상이 시작된 뒤에는 어떤 입력도 받아들일 수 없습니다.
Odyssey-2 Max는 인과적 오토리그레시브(causal autoregressive) 방식입니다. 이전 프레임의 상태와 사용자의 액션을 입력으로 받아 다음 프레임 한 장만 예측합니다. 그리고 이 과정을 40밀리초마다 반복합니다(Odyssey 발표 기준). 게임 엔진과 비슷한 방식이지만, 엔진의 규칙이 코드가 아니라 학습된 신경망이라는 점이 다릅니다.
| 항목 | Sora · Kling · Veo | Odyssey-2 Max |
|---|---|---|
| 어텐션 방식 | 양방향 (Bidirectional) | 인과적 (Causal AR) |
| 결말 | 프롬프트 시점에 고정 | 입력에 따라 열림 |
| 인터랙션 | 불가 | 실시간 가능 |
| 생성 주기 | 일괄 생성 | 40ms/frame 스트리밍 |
| 연속 길이 | 영상 단위 (수 초~수십 초) | 120초+ 연속 |
| 핵심 목표 | 비디오 콘텐츠 생산 | 물리 세계 시뮬레이션 |
영화 비유로 정리하면 이렇습니다. Sora는 미리 찍어놓은 영화를 재생하는 것이고, Odyssey-2 Max는 즉흥 연기 무대에서 배우(사용자)의 행동에 맞춰 다음 장면을 그려내는 것입니다.
AR DiT 아키텍처와 성능 수치
Odyssey가 공개한 기술적 세부사항은 다음과 같습니다.
- 아키텍처: AR DiT(Autoregressive Diffusion Transformer)
- 핵심 기법: 연속 플로우 매칭(continuous flow matching) + 소수 단계 노이즈 제거 증류(few-step denoising distillation)
- 프레임 생성 주기: 약 40ms
- 연속 생성 길이: 120초 이상
- 시퀀스 길이: 이전 세대(Odyssey-2 Pro) 대비 약 20배
기존 디퓨전 모델은 이미지 한 장을 만드는 데 수십~수백 단계의 노이즈 제거가 필요했습니다. 이를 실시간 비디오에 적용하면 한 프레임마다 초 단위의 시간이 들어갑니다. AR DiT는 이 단계를 압축해 한 프레임을 40ms 안에 생성하도록 만든 것이 핵심입니다.
벤치마크 결과는 다음과 같습니다(Odyssey 자체 발표 기준).
| 모델 | VBench 2 물리 점수 | PAI-Bench 물리 점수 |
|---|---|---|
| Odyssey-2 Pro | 49.67 | 91.67 |
| Odyssey-2 Max | 58.52 | 93.02 |
Odyssey는 이 점수가 평가된 월드 모델 중 가장 높다고 발표했습니다. 다만 외부 연구자가 모델에 직접 접근해 재현 검증한 결과는 아직 공개되지 않았습니다. 파라미터 수는 명시적으로 공개되지 않았고, "Pro 대비 약 3배, 학습 컴퓨팅은 약 10배"라고만 표기되어 있습니다.
만든 사람들과 자금 — 자율주행에서 시작된 팀
Odyssey의 기술 결정에서 가장 흥미로운 부분은 창립자들의 배경입니다.
- Oliver Cameron: GM의 자율주행 자회사 Cruise 전 CEO
- Jeff Hawke: 자율주행 스타트업 Wayve의 수석 연구원 출신
자율주행은 본질적으로 물리 세계의 시뮬레이션 문제입니다. 차가 갑자기 끼어들었을 때, 보행자가 도로로 뛰어들 때, 비가 와서 차선이 안 보일 때 — 모든 시나리오를 시뮬레이션으로 미리 학습시켜야 합니다. 자율주행을 만들던 사람들이 물리 시뮬레이션 AI를 만든 것은 우연이 아닙니다. 그들이 가장 절실히 필요했던 도구입니다.
투자 측면에서도 신호가 분명합니다.
- 누적 투자: 약 2,700만 달러
- 주요 투자사: EQT Ventures, GV(Google Ventures), Air Street Capital
- 이사회 멤버: Ed Catmull (픽사 공동창립자, 튜링상 수상)
Ed Catmull의 합류는 상징적입니다. 픽사가 컴퓨터 그래픽으로 영화를 만들었다면, Odyssey는 신경망으로 시뮬레이션 가능한 세계를 만들려고 합니다.
응용 분야 — 영상이 아닌 인프라
Odyssey-2 Max를 단순히 "Sora 경쟁자"로 보면 핵심을 놓칩니다. 회사가 발표한 응용 분야는 콘텐츠 생산이 아니라 인프라 영역입니다.
| 분야 | 활용 방식 |
|---|---|
| 로보틱스 | 물리적 작업을 모델 안에서 사전 리허설, 로봇 정책 사전훈련 |
| 게임 | 인터랙티브 월드를 실시간으로 생성하는 차세대 엔진 |
| 자율주행 | 도로 시나리오를 사전 시뮬레이션하는 학습 데이터 생성 |
| 방위산업 | 시뮬레이션 기반 훈련 환경 |
특히 로보틱스가 핵심입니다. 로봇이 새로운 작업을 배우려면 수만 번의 시행착오가 필요한데, 실제 로봇으로 이를 진행하면 비용과 시간이 천문학적입니다. 월드 모델 안에서 사전 훈련을 끝내고 실제 로봇으로 옮기는(sim-to-real) 방식이 표준이 되어가고 있습니다.
한계와 의문점
이 모델이 진짜 패러다임 전환인지 판단하려면 다음 한계도 같이 봐야 합니다.
1. 외부 검증 부재: 현재 모델은 프라이빗 베타만 제공됩니다. 오픈소스가 아니고 공개 API도 없습니다. 벤치마크 점수가 모두 회사 자체 발표라 독립적인 재현 연구가 없습니다.
2. 파라미터 비공개: "Pro 대비 약 3배"라는 상대적 표현만 있고 절대 수치는 공개되지 않았습니다. 모델의 실제 규모와 컴퓨팅 비용을 추정하기 어렵습니다.
3. 시각 품질 vs 물리 정확도: 양방향 어텐션을 포기한 대가는 보통 영상의 시각적 일관성 저하입니다. Odyssey-2 Max가 Sora 수준의 화질을 유지하면서 실시간성을 확보했는지는 실제 사용 결과를 봐야 알 수 있습니다.
4. 응용 분야 한계: 로보틱스, 게임, 방위산업 같은 B2B 영역에 집중되어 있어, 일반 사용자나 콘텐츠 크리에이터에게 즉각적인 영향은 제한적입니다.
시장 관점 — 무엇을 의미하는가
LLM이 텍스트 세계의 시뮬레이터라면, 월드 모델은 물리 세계의 시뮬레이터입니다. 이 비유가 왜 중요하냐면, LLM이 등장한 뒤 텍스트 데이터를 다루는 모든 산업이 재편된 것처럼, 물리 시뮬레이터가 충분히 강해지면 로봇, 자율주행, 게임 산업의 학습 데이터 구조가 통째로 바뀔 수 있기 때문입니다.
Odyssey-2 Max가 그 변곡점인지는 아직 단정할 수 없습니다. 하지만 한 가지는 분명합니다. 양방향 어텐션을 포기하고 인과적 오토리그레시브로 가겠다는 베팅은 — 자율주행 출신 팀이 — 단순한 기술 선택이 아니라 시장 정의 자체를 바꾸겠다는 시도입니다.
다음 6개월~1년 사이 주목할 포인트는 세 가지입니다.
- 외부 연구자의 재현 검증: 벤치마크 수치가 실제로 재현되는가
- OpenAI, Google의 대응: Sora·Veo의 다음 버전이 양방향을 유지할 것인가, 인과적 방식을 도입할 것인가
- 로봇 회사들의 채택: Tesla, Figure, 1X, Physical Intelligence 같은 로봇 회사들이 자체 월드 모델을 만들 것인가, Odyssey 같은 외부 모델을 쓸 것인가
정리
비디오 모델은 콘텐츠 생산 도구로 시작했고 지금도 그 자리에 있습니다. 월드 모델은 그 너머의 인프라를 노립니다. Odyssey-2 Max는 이 차이를 가장 분명하게 보여주는 첫 모델입니다. 일반 사용자가 만져볼 수 없다는 점에서 당장 체감하긴 어렵지만, AI 산업의 다음 6개월을 이해하는 데 핵심 키워드 중 하나가 될 가능성이 높습니다.