whatcani.run — 내 맥에서 어떤 AI 모델을 돌릴 수 있을까?

"M1 Max 64GB에서 Llama 3.1 70B 돌릴 수 있나요?"

로컬 LLM을 시작하려는 사람이라면 한 번쯤 해봤을 질문입니다. Reddit의 r/LocalLLaMA를 뒤지고, GitHub 이슈를 읽고, 직접 모델을 다운받아 실행해보며 답을 찾아야 했죠. whatcani.run은 이 과정을 완전히 바꿔놓는 오픈소스 플랫폼입니다.

whatcani.run이란?

whatcani.run은 로컬 LLM 벤치마크 + 모델 검색 플랫폼입니다. 내 맥 사양을 입력하면 실제 커뮤니티 사용자들이 측정한 벤치마크 결과를 기반으로 어떤 AI 모델이 어떤 성능으로 동작하는지 보여줍니다.

핵심 특징은 크라우드소싱입니다. 한 사람의 벤치마크가 아니라, 실제 다양한 하드웨어에서 측정된 집단 데이터를 활용합니다. 결과는 "Runs great", "Runs well", "Runs ok" 같은 직관적인 등급으로 표시되어 기술적 수치를 해석할 필요 없이 바로 판단할 수 있습니다.

핵심 기능 3가지

1. 웹사이트에서 모델 탐색

whatcani.run 웹사이트에서 디바이스를 선택하면 해당 하드웨어에서 테스트된 모든 모델의 벤치마크 결과를 확인할 수 있습니다. 각 모델마다 Decode tok/s(생성 속도), Prefill tok/s(프롬프트 처리 속도), TTFT(첫 토큰 응답 시간), Peak Memory(최대 메모리 사용량), Score(종합 점수)가 표시됩니다.

특히 "N trials from N people"이라는 표시가 있어서 해당 결과가 얼마나 신뢰할 수 있는지도 바로 알 수 있습니다.

2. CLI로 내 맥 벤치마크 실행

터미널에서 단 한 줄이면 내 맥의 벤치마크를 실행할 수 있습니다.

npx whatcanirun

설치 과정 없이 바로 실행되며, llama.cpp와 MLX 두 가지 런타임에서 표준화된 조건(4,096 입력 토큰 + 1,024 출력 토큰)으로 벤치마크를 수행합니다.

3. 결과를 커뮤니티에 제출

벤치마크가 끝나면 결과를 커뮤니티에 제출할 수 있습니다. 내 측정 데이터가 다른 사용자의 하드웨어 선택을 도와주는 것입니다. 기여자가 많아질수록 데이터의 정확도와 커버리지가 높아지는 선순환 구조입니다.

llama.cpp vs MLX — 어떤 런타임이 더 빠를까?

Apple Silicon에서 로컬 LLM을 실행할 때 가장 많이 사용하는 두 런타임이 llama.cpp와 MLX입니다. llama.cpp는 크로스 플랫폼 호환성이 강점이고, MLX는 Apple의 통합 메모리 아키텍처에 최적화되어 있습니다.

whatcani.run에서는 동일 하드웨어, 동일 모델에서 두 런타임의 성능을 직접 비교할 수 있습니다. 필터에서 런타임을 전환하면 어떤 런타임이 내 사용 패턴에 더 적합한지 데이터 기반으로 판단할 수 있습니다.

벤치마크 측정 항목

항목	설명	왜 중요한가
Decode tok/s	토큰 생성 속도	실시간 대화 경험의 핵심
Prefill tok/s	프롬프트 처리 속도	긴 컨텍스트 입력 시 대기 시간
TTFT	첫 토큰 응답 시간(ms)	체감 반응 속도
Peak Memory	최대 메모리 사용량(GB)	다른 앱과 동시 실행 가능 여부
Score	종합 점수	전체 성능 한눈에 비교

표준 벤치마크 조건은 4,096 입력 토큰 + 1,024 출력 토큰입니다. 실제 대화 시나리오에 가까운 조건이어서 결과의 실용성이 높습니다.

유사 도구 비교

로컬 LLM 벤치마크 도구가 whatcani.run만 있는 것은 아닙니다. 용도에 따라 선택할 수 있는 대안들이 있습니다.

도구	특징	차별점
whatcani.run	웹+CLI, 커뮤니티 데이터	가장 직관적인 "뭘 돌릴 수 있나?" 답변
asiai	CLI, 7개 엔진 지원	더 넓은 런타임 커버리지
Anubis OSS	macOS 네이티브 앱	GPU/메모리 텔레메트리 시각화
Silicon Score	웹, 맥별 추천	하드웨어 구매 가이드 중심
local-llm-bench	Python CLI	실제 업무 시나리오별 테스트

whatcani.run의 강점은 심플함입니다. 복잡한 설정 없이 "내 맥에서 뭐가 돌아가나?"라는 단일 질문에 집중합니다.

왜 지금 로컬 LLM 벤치마크가 중요한가

2026년 현재, 로컬 LLM은 더 이상 실험적 취미가 아닙니다. API 비용이 지속적으로 상승하고 있고, 데이터 프라이버시에 대한 우려도 커지고 있습니다. 로컬 실행은 비용 절감과 프라이버시 보호를 동시에 달성하는 실용적 선택이 되었습니다.

하지만 로컬 LLM의 가장 큰 진입 장벽은 "내 하드웨어에서 뭐가 되는지 모른다"는 것입니다. whatcani.run은 이 장벽을 커뮤니티의 힘으로 낮춰주고 있습니다.

시작하기

# 벤치마크 실행
npx whatcanirun

# 또는 글로벌 설치
npm install -g whatcanirun
wcir run

오픈소스 프로젝트로, GitHub(fiveoutofnine/whatcanirun)에서 코드를 확인하고 기여할 수 있습니다.

내 맥에서 어떤 AI 모델을 돌릴 수 있는지 궁금하다면, whatcani.run에서 바로 확인해보세요.

자주 묻는 질문

whatcani.run은 무료인가요?

네, 오픈소스 프로젝트입니다. 웹사이트 이용과 CLI 도구 모두 무료입니다.

어떤 하드웨어를 지원하나요?

현재 Apple Silicon(M1/M2/M3/M4 시리즈) 맥을 중심으로 커뮤니티 데이터가 수집되고 있습니다.

벤치마크 결과는 얼마나 신뢰할 수 있나요?

각 결과에 "N trials from N people" 표시가 있어서 데이터 샘플 크기를 확인할 수 있습니다. 참여자가 많을수록 신뢰도가 높아집니다.

llama.cpp와 MLX 중 어떤 것을 써야 하나요?

모델과 하드웨어에 따라 다릅니다. whatcani.run에서 동일 조건의 벤치마크 결과를 직접 비교한 후 선택하는 것을 권장합니다.

whatcani.run — 내 맥에서 어떤 AI 모델을 돌릴 수 있을까?

whatcani.run — 내 맥에서 어떤 AI 모델을 돌릴 수 있을까?

whatcani.run이란?

핵심 기능 3가지

1. 웹사이트에서 모델 탐색

2. CLI로 내 맥 벤치마크 실행

3. 결과를 커뮤니티에 제출

llama.cpp vs MLX — 어떤 런타임이 더 빠를까?

벤치마크 측정 항목

유사 도구 비교

왜 지금 로컬 LLM 벤치마크가 중요한가

시작하기

자주 묻는 질문

whatcani.run은 무료인가요?

어떤 하드웨어를 지원하나요?

벤치마크 결과는 얼마나 신뢰할 수 있나요?

llama.cpp와 MLX 중 어떤 것을 써야 하나요?

댓글 (0)

관련 글

댓글 (0)

관련 글