클로드 코드 영상 편집 오픈소스 video-use 완전 정리 — 설치부터 실전 활용법까지 (2026)

video-use란?: 클로드 코드 영상 편집을 가능하게 하는 오픈소스 스킬입니다. 원본 폴더를 던지고 말로 지시하면 final.mp4가 나옵니다.

목차 (Table of Contents)

video-use가 뭔가요
LLM은 영상을 보지 않고 읽는다
어떻게 동작하나요
무엇을 자동으로 해주나요
왜 이게 중요한가요
지금 바로 시작하는 법
자주 묻는 질문

결론부터 말하면, 이제 영상 편집을 코딩 에이전트에게 말로 시킬 수 있습니다. 원본 영상이 든 폴더를 던지고 "이걸 런칭 영상으로 편집해줘"라고 하면 final.mp4가 나옵니다. 프리셋도, 타임라인 메뉴도 없습니다. browser-use가 2026년 4월에 공개한 오픈소스 video-use 이야기입니다. 공개 석 달 만에 깃허브 별 1만4천 개를 넘겼고(2026년 7월 4일 기준 14,587개), 지금도 활발히 업데이트되고 있습니다.

이 글에서는 video-use가 정확히 무엇을 하는지, 그리고 이 도구가 왜 "AI 에이전트 시대의 도구는 어떻게 생겨야 하는가"에 대한 좋은 힌트인지 정리합니다.

video-use가 뭔가요

video-use는 클로드 코드(Claude Code), Codex, Hermes처럼 셸에 접근할 수 있는 코딩 에이전트에 붙여 쓰는 편집 스킬입니다. 라이선스는 MIT라 상업적으로 써도 됩니다. 필요한 건 두 가지뿐입니다. 하나는 ffmpeg, 다른 하나는 ElevenLabs API 키입니다.

쓰는 방식은 단순합니다. 원본 영상이 든 폴더로 이동해 에이전트를 실행하고, "이걸 편집해줘"라고 말합니다. 그러면 에이전트가 소스를 훑어보고 편집 전략을 제안합니다. 사용자가 승인하면 그때부터 자르고, 색을 맞추고, 자막을 넣어 edit/final.mp4를 만들어냅니다. 원본 파일은 건드리지 않고, 모든 결과물은 별도 폴더에 쌓입니다.

"LLM은 영상을 보지 않고 읽는다"가 핵심입니다

video-use에서 가장 중요한 문장은 이겁니다. LLM은 영상을 시청하지 않습니다. 읽습니다.

왜 이게 중요할까요. 영상은 프레임의 연속이라, 길이가 조금만 길어져도 프레임이 수만 장으로 불어납니다. 예를 들어 프레임 3만 장을 그대로 LLM에 넘기면 토큰이 4,500만 개가 됩니다(3만 프레임 × 프레임당 약 1,500 토큰). 대부분은 편집과 무관한 노이즈입니다. 비용도, 속도도, 정확도도 무너집니다.

video-use는 이 문제를 정면으로 피합니다. 영상을 딱 12KB짜리 텍스트 대본 하나로 바꿉니다. 사람이 영상 편집할 때 프레임을 한 장씩 노려보는 게 아니라 자막과 파형을 보며 편집점을 잡는 것과 똑같은 방식입니다.

이건 browser-use가 웹 자동화에서 쓴 것과 정확히 같은 아이디어입니다. browser-use는 LLM에게 웹페이지 스크린샷 대신 구조화된 화면 구조(DOM)를 넘겨서 효율을 끌어올렸습니다. video-use는 그 발상을 그대로 영상 도메인으로 옮겼습니다.

어떻게 동작하나요

video-use는 두 개의 레이어로 영상을 읽습니다.

첫 번째 레이어는 오디오 대본입니다. 소스마다 ElevenLabs Scribe를 딱 한 번 호출하면 단어 단위 타임스탬프, 화자 구분, 그리고 웃음·박수·한숨 같은 오디오 이벤트까지 전부 텍스트로 돌려줍니다. 모든 테이크가 하나의 takes_packed.md(약 12KB)로 압축됩니다. 이게 LLM이 읽는 1차 화면입니다. 여기에는 "음", "어" 같은 말버릇과 말 사이의 죽은 구간이 어디 있는지가 글자로 다 드러납니다.

두 번째 레이어는 시각 컴포지트입니다. 필름스트립과 파형, 단어 라벨을 합친 PNG인데, 항상 보는 게 아니라 판단이 필요한 순간에만 꺼내 봅니다. 애매한 침묵을 자를지 말지, 리테이크 두 개 중 뭐가 나은지 같은 결정 지점에서만 이미지를 확인합니다.

전체 흐름은 이렇습니다. 전사(Transcribe) → 대본 압축(Pack) → LLM 추론 → 컷 목록(EDL) → 렌더 → 자가 검증. 마지막 단계에서 문제가 발견되면 고쳐서 다시 렌더하고, 이걸 최대 세 번까지 반복합니다.

무엇을 자동으로 해주나요

단순히 잘라주는 도구가 아닙니다. 실제 편집 감각에 가까운 작업을 자동으로 처리합니다.

말버릇과 죽은 구간을 잘라냅니다. "음", "어", 말 더듬음, 테이크 사이의 빈 시간을 제거합니다.
자동 색보정을 합니다. 세그먼트마다 따뜻한 시네마틱 톤이나 뉴트럴한 톤 등 원하는 ffmpeg 필터 체인을 적용합니다.
컷마다 30ms 오디오 페이드를 넣어 편집점에서 나는 "툭" 소리를 지웁니다.
자막을 화면에 새깁니다. 기본값은 2단어 대문자 청크지만 완전히 바꿀 수 있습니다.
애니메이션 오버레이를 만듭니다. HyperFrames, Remotion, Manim, PIL을 쓰는데, 애니메이션이 여러 개면 서브에이전트를 개당 하나씩 병렬로 띄웁니다.

여기에 더해, 렌더가 끝나면 스스로 검수합니다. 컷 경계마다 자막이 오버레이에 가려지지 않았는지, 화면이 튀지 않는지, 오디오 팝이 남지 않았는지를 다시 확인합니다. 통과해야만 사용자에게 프리뷰를 보여줍니다. 그리고 세션 내용을 project.md에 기록해 두어, 다음 세션이 이어받을 수 있게 합니다.

흥미로운 설계 철학이 하나 있습니다. video-use는 "12개의 하드 룰은 절대 규칙, 나머지는 예술적 자유"라고 선을 긋습니다. 프로덕션 정확성(예: 자막은 필터 체인 맨 마지막에 적용, 단어 중간에서 절대 컷 금지)은 타협 불가지만, 취향의 영역은 에이전트에게 맡깁니다.

왜 이게 중요한가요

video-use를 만든 browser-use는 눈여겨볼 회사입니다. 2024년 Gregor Žunič와 Magnus Müller가 창업했고, Y Combinator 2025년 겨울 배치를 거쳐 2025년 3월 Felicis 주도로 1,700만 달러 시드 투자를 받았습니다. 대표 프로젝트인 browser-use(웹 자동화 에이전트)는 공개 3개월 만에 별 5만 개를 모았고, Airbnb·Amazon·Anthropic 등이 씁니다.

애니메이션 엔진으로 쓰이는 HyperFrames도 흥미롭습니다. HeyGen이 만든 오픈소스(Apache 2.0)로, HTML/CSS/JS로 영상을 만드는 프레임워크입니다. "영상 = HTML"이라는 발상인데, 에이전트가 가장 잘 생성하는 포맷이 HTML이기 때문입니다.

이 조합이 주는 교훈은 명확합니다. 에이전트에게 무거운 작업을 시키려면, 작업 대상을 에이전트가 읽기 좋은 형태로 바꾸는 게 진짜 레버라는 것입니다. 프레임을 다 보여주는 대신 대본으로, 스크린샷 대신 DOM으로, 영상 렌더 대신 HTML로. 도메인은 달라도 원리는 같습니다.

퀀텀점프클럽에게도 남 이야기가 아닙니다. 우리가 릴스를 만들 때 이미 ElevenLabs로 자막을 정렬하고, HyperFrames로 화면을 렌더하고, ffmpeg로 합치고, 결과를 자가 검증합니다. video-use는 같은 부품으로 "편집 자동화"를 완성한 좋은 레퍼런스입니다.

지금 바로 시작하는 법

설치 5단계

저장소를 안정적인 경로에 클론하고 에이전트의 skills 디렉토리에 심링크합니다.
uv sync 또는 pip install -e .로 의존성을 설치합니다. 무거운 게 없습니다(requests, librosa, matplotlib, pillow, numpy).
brew install ffmpeg으로 ffmpeg를 설치합니다. 온라인 소스를 받으려면 yt-dlp도 선택적으로 설치합니다.
.env에 ElevenLabs API 키를 넣습니다.
영상 폴더로 이동해 에이전트를 실행하고 "이걸 편집해줘"라고 말합니다.

비개발자라도 클로드 코드에 익숙하면 어렵지 않습니다. 오히려 타임라인 편집 프로그램의 학습 곡선보다 "말로 지시하기"가 더 직관적일 수 있습니다.

자주 묻는 질문

Q. 완전 무료인가요? video-use 자체는 MIT 라이선스로 무료입니다. 다만 전사에 쓰는 ElevenLabs Scribe는 사용량 기반 과금이 있고, 클로드 코드 등 에이전트 이용료는 별도입니다.

Q. 영상을 다시 편집하면 매번 전사하나요? 아닙니다. 소스별로 대본을 캐시해 두고, 파일 자체가 바뀌지 않는 한 다시 전사하지 않습니다.

Q. 세로 영상(9:16)도 되나요? 됩니다. 2026년 5월 10일 커밋(#29)에서 세로(포트레이트) 영상 소스의 방향을 보존하도록 렌더 로직이 개선됐습니다. 이전에는 세로 영상이 가로 기준으로 스케일되어 찌그러지던 문제가 있었는데, 이제 높이 기준으로 처리해 올바른 방향을 유지합니다.

Q. 클로드 코드에서만 되나요? 아닙니다. Codex, Hermes, Openclaw 등 셸에 접근할 수 있는 아무 에이전트에서 동작합니다.

마무리

클로드 코드 영상 편집이라는 새로운 방식이 보여주는 건 기능 목록이 아니라 방향입니다. 에이전트에게 무거운 작업을 맡기려면, 작업 대상을 에이전트가 읽기 좋은 형태로 먼저 바꿔야 합니다. 영상을 대본으로, 화면을 DOM으로, 렌더를 HTML로. 이 원리를 이해하면 다음에 어떤 도구가 나올지도 어느 정도 짐작이 됩니다. 지금 당장 영상 편집이 필요하다면 MIT 라이선스에 무료이니 한번 붙여서 써보고, 그렇지 않더라도 "에이전트 네이티브 도구는 이렇게 생겼구나"를 눈으로 확인해 두는 것만으로 충분히 값어치가 있습니다.

클로드 코드 영상 편집 오픈소스 video-use 완전 정리 — 설치부터 실전 활용법까지 (2026)