Skip to content
Back to BlogTrend

Odyssey-2 Max 분석: Sora를 넘어 '월드 모델'로 가는 AI의 패러다임 전환

5 min read0

Odyssey-2 Max 분석: Sora를 넘어 '월드 모델'로 가는 AI의 패러다임 전환

2026년 4월 21일, 캘리포니아 AI 스타트업 Odyssey가 'Odyssey-2 Max'를 공개했습니다. 회사 측은 이 모델을 단순히 또 하나의 비디오 생성기가 아니라 "사전학습된 물리 지능(pretrained physical intelligence)"이라고 표현했습니다.

표현은 거창하지만 핵심 질문은 단순합니다. Sora, Kling, Veo가 이미 영상 생성을 잘하는데, 왜 또 다른 모델이 필요한가? 답은 아키텍처에 있습니다. Odyssey-2 Max는 영상을 만들기 위한 모델이 아니라, 물리 세계를 시뮬레이션하기 위한 모델입니다. 이 글에서는 그 차이를 기술적으로, 그리고 시장 관점에서 풀어봅니다.

면책 고지: 본 글의 성능 수치(VBench 2, PAI-Bench, 프레임 생성 주기 등)는 Odyssey의 공식 발표를 기반으로 합니다. 현재 모델은 프라이빗 베타로만 제공되며, 일반 사용자나 독립 연구자의 외부 검증은 제한적입니다.

월드 모델은 비디오 모델과 어떻게 다른가

가장 큰 차이는 시간을 처리하는 방식입니다.

Sora, Kling, Veo 같은 비디오 생성 모델은 양방향 어텐션(bidirectional attention)을 사용합니다. 사용자가 프롬프트를 입력한 순간, 모델은 영상의 처음부터 끝까지 전체 시퀀스를 한 번에 계산해 출력합니다. 이 방식의 장점은 시각적 일관성과 영화적 품질입니다. 결말이 처음부터 결정되어 있기 때문에 화면 흐름이 매끄럽습니다. 단점은 명확합니다. 영상이 시작된 뒤에는 어떤 입력도 받아들일 수 없습니다.

Odyssey-2 Max는 인과적 오토리그레시브(causal autoregressive) 방식입니다. 이전 프레임의 상태와 사용자의 액션을 입력으로 받아 다음 프레임 한 장만 예측합니다. 그리고 이 과정을 40밀리초마다 반복합니다(Odyssey 발표 기준). 게임 엔진과 비슷한 방식이지만, 엔진의 규칙이 코드가 아니라 학습된 신경망이라는 점이 다릅니다.

항목Sora · Kling · VeoOdyssey-2 Max
어텐션 방식양방향 (Bidirectional)인과적 (Causal AR)
결말프롬프트 시점에 고정입력에 따라 열림
인터랙션불가실시간 가능
생성 주기일괄 생성40ms/frame 스트리밍
연속 길이영상 단위 (수 초~수십 초)120초+ 연속
핵심 목표비디오 콘텐츠 생산물리 세계 시뮬레이션

영화 비유로 정리하면 이렇습니다. Sora는 미리 찍어놓은 영화를 재생하는 것이고, Odyssey-2 Max는 즉흥 연기 무대에서 배우(사용자)의 행동에 맞춰 다음 장면을 그려내는 것입니다.

AR DiT 아키텍처와 성능 수치

Odyssey가 공개한 기술적 세부사항은 다음과 같습니다.

  • 아키텍처: AR DiT(Autoregressive Diffusion Transformer)
  • 핵심 기법: 연속 플로우 매칭(continuous flow matching) + 소수 단계 노이즈 제거 증류(few-step denoising distillation)
  • 프레임 생성 주기: 약 40ms
  • 연속 생성 길이: 120초 이상
  • 시퀀스 길이: 이전 세대(Odyssey-2 Pro) 대비 약 20배

기존 디퓨전 모델은 이미지 한 장을 만드는 데 수십~수백 단계의 노이즈 제거가 필요했습니다. 이를 실시간 비디오에 적용하면 한 프레임마다 초 단위의 시간이 들어갑니다. AR DiT는 이 단계를 압축해 한 프레임을 40ms 안에 생성하도록 만든 것이 핵심입니다.

벤치마크 결과는 다음과 같습니다(Odyssey 자체 발표 기준).

모델VBench 2 물리 점수PAI-Bench 물리 점수
Odyssey-2 Pro49.6791.67
Odyssey-2 Max58.5293.02

Odyssey는 이 점수가 평가된 월드 모델 중 가장 높다고 발표했습니다. 다만 외부 연구자가 모델에 직접 접근해 재현 검증한 결과는 아직 공개되지 않았습니다. 파라미터 수는 명시적으로 공개되지 않았고, "Pro 대비 약 3배, 학습 컴퓨팅은 약 10배"라고만 표기되어 있습니다.

만든 사람들과 자금 — 자율주행에서 시작된 팀

Odyssey의 기술 결정에서 가장 흥미로운 부분은 창립자들의 배경입니다.

  • Oliver Cameron: GM의 자율주행 자회사 Cruise 전 CEO
  • Jeff Hawke: 자율주행 스타트업 Wayve의 수석 연구원 출신

자율주행은 본질적으로 물리 세계의 시뮬레이션 문제입니다. 차가 갑자기 끼어들었을 때, 보행자가 도로로 뛰어들 때, 비가 와서 차선이 안 보일 때 — 모든 시나리오를 시뮬레이션으로 미리 학습시켜야 합니다. 자율주행을 만들던 사람들이 물리 시뮬레이션 AI를 만든 것은 우연이 아닙니다. 그들이 가장 절실히 필요했던 도구입니다.

투자 측면에서도 신호가 분명합니다.

  • 누적 투자: 약 2,700만 달러
  • 주요 투자사: EQT Ventures, GV(Google Ventures), Air Street Capital
  • 이사회 멤버: Ed Catmull (픽사 공동창립자, 튜링상 수상)

Ed Catmull의 합류는 상징적입니다. 픽사가 컴퓨터 그래픽으로 영화를 만들었다면, Odyssey는 신경망으로 시뮬레이션 가능한 세계를 만들려고 합니다.

응용 분야 — 영상이 아닌 인프라

Odyssey-2 Max를 단순히 "Sora 경쟁자"로 보면 핵심을 놓칩니다. 회사가 발표한 응용 분야는 콘텐츠 생산이 아니라 인프라 영역입니다.

분야활용 방식
로보틱스물리적 작업을 모델 안에서 사전 리허설, 로봇 정책 사전훈련
게임인터랙티브 월드를 실시간으로 생성하는 차세대 엔진
자율주행도로 시나리오를 사전 시뮬레이션하는 학습 데이터 생성
방위산업시뮬레이션 기반 훈련 환경

특히 로보틱스가 핵심입니다. 로봇이 새로운 작업을 배우려면 수만 번의 시행착오가 필요한데, 실제 로봇으로 이를 진행하면 비용과 시간이 천문학적입니다. 월드 모델 안에서 사전 훈련을 끝내고 실제 로봇으로 옮기는(sim-to-real) 방식이 표준이 되어가고 있습니다.

한계와 의문점

이 모델이 진짜 패러다임 전환인지 판단하려면 다음 한계도 같이 봐야 합니다.

1. 외부 검증 부재: 현재 모델은 프라이빗 베타만 제공됩니다. 오픈소스가 아니고 공개 API도 없습니다. 벤치마크 점수가 모두 회사 자체 발표라 독립적인 재현 연구가 없습니다.

2. 파라미터 비공개: "Pro 대비 약 3배"라는 상대적 표현만 있고 절대 수치는 공개되지 않았습니다. 모델의 실제 규모와 컴퓨팅 비용을 추정하기 어렵습니다.

3. 시각 품질 vs 물리 정확도: 양방향 어텐션을 포기한 대가는 보통 영상의 시각적 일관성 저하입니다. Odyssey-2 Max가 Sora 수준의 화질을 유지하면서 실시간성을 확보했는지는 실제 사용 결과를 봐야 알 수 있습니다.

4. 응용 분야 한계: 로보틱스, 게임, 방위산업 같은 B2B 영역에 집중되어 있어, 일반 사용자나 콘텐츠 크리에이터에게 즉각적인 영향은 제한적입니다.

시장 관점 — 무엇을 의미하는가

LLM이 텍스트 세계의 시뮬레이터라면, 월드 모델은 물리 세계의 시뮬레이터입니다. 이 비유가 왜 중요하냐면, LLM이 등장한 뒤 텍스트 데이터를 다루는 모든 산업이 재편된 것처럼, 물리 시뮬레이터가 충분히 강해지면 로봇, 자율주행, 게임 산업의 학습 데이터 구조가 통째로 바뀔 수 있기 때문입니다.

Odyssey-2 Max가 그 변곡점인지는 아직 단정할 수 없습니다. 하지만 한 가지는 분명합니다. 양방향 어텐션을 포기하고 인과적 오토리그레시브로 가겠다는 베팅은 — 자율주행 출신 팀이 — 단순한 기술 선택이 아니라 시장 정의 자체를 바꾸겠다는 시도입니다.

다음 6개월~1년 사이 주목할 포인트는 세 가지입니다.

  1. 외부 연구자의 재현 검증: 벤치마크 수치가 실제로 재현되는가
  2. OpenAI, Google의 대응: Sora·Veo의 다음 버전이 양방향을 유지할 것인가, 인과적 방식을 도입할 것인가
  3. 로봇 회사들의 채택: Tesla, Figure, 1X, Physical Intelligence 같은 로봇 회사들이 자체 월드 모델을 만들 것인가, Odyssey 같은 외부 모델을 쓸 것인가

정리

비디오 모델은 콘텐츠 생산 도구로 시작했고 지금도 그 자리에 있습니다. 월드 모델은 그 너머의 인프라를 노립니다. Odyssey-2 Max는 이 차이를 가장 분명하게 보여주는 첫 모델입니다. 일반 사용자가 만져볼 수 없다는 점에서 당장 체감하긴 어렵지만, AI 산업의 다음 6개월을 이해하는 데 핵심 키워드 중 하나가 될 가능성이 높습니다.

원문 출처: Introducing Odyssey-2 Max — odyssey.ml