AI Berkshire 분석: Claude Code와 AI 에이전트로 만든 1인 가치투자 리서치팀

한 사람이 AI 에이전트만으로 "투자 리서치팀"을 운영할 수 있을까요? AI Berkshire(xbtlin/ai-berkshire)는 바로 그 질문에 코드로 답한 오픈소스 프로젝트입니다. 이 글은 종목 추천이 아니라, **개인이 전문가의 일하는 방식을 AI로 시스템화한 "구조와 방법"**을 분석합니다.

결론부터 말씀드리면, AI Berkshire의 진짜 가치는 "AI에게 종목을 물어본다"가 아닙니다. 워런 버핏, 찰리 멍거 같은 가치투자 거장들의 사고법을 재사용 가능한 명령어 세트로 코드화하고, 여러 AI가 서로 반박하며 결론을 강제하는 구조를 만들었다는 점이죠. 작은 주체가 AI 전환(AX)으로 전문가 워크플로를 운영하는, 아주 흥미로운 실증 사례입니다.

AI Berkshire란 무엇인가요?

AI Berkshire는 Claude Code(앤트로픽의 AI 코딩 도구) 위에서 가치투자 4대 거장의 방법론을 18개의 Skill로 시스템화한 오픈소스 리서치 프레임워크입니다. 슬로건은 "한 사람 + Claude = 하나의 투자 리서치팀"입니다.

조금 풀어볼게요. 여기서 말하는 **Skill(스킬)**은 Claude Code에서 /명령어처럼 불러 쓰는 미리 짜둔 작업 지침입니다. 예를 들어 /investment-research 텐센트라고 입력하면, 미리 설계해둔 리서치 절차가 자동으로 돌아가는 식이죠.

이 프로젝트가 모방하는 4대 거장은 워런 버핏, 찰리 멍거, 그리고 중화권 가치투자자인 돤융핑(段永平)·리루(李录)입니다. 이들의 서로 다른 사고법을 코드에 담았습니다.

2026년 6월 26일 실측 기준으로 GitHub 스타 2,215개, 포크 331개, MIT 라이선스(자유롭게 쓸 수 있는 오픈소스 라이선스)이고, 주 언어는 Python입니다. 2026년 4월 7일에 처음 만들어졌는데 오늘까지도 활발하게 업데이트되고 있습니다. 만든 사람은 중화권 개발자(xbtlin)이고, 실제 분석 대상도 텐센트·핀둬둬·알리바바·마오타이 같은 중화권 종목 비중이 높습니다.

3층 설계와 18개 Skill: 어떻게 작동하나요?

AI Berkshire는 세 개의 층으로 짜여 있습니다. 비유하자면 식당의 메뉴판(Skill) → 주방의 요리사들(Agent) → 정밀 저울·계량컵(Tool)의 관계입니다.

1층 — Skill(입구): 18개 명령어

용도별 진입점입니다. 심층 연구, 재무제표 정독, 산업 스크리닝, 포지션 관리, 사고 도구, 발행까지 18개로 나뉩니다. 몇 가지만 예로 들면:

/investment-research — 4대 거장 시각을 종합한 심층 리서치
/investment-team — 여러 AI 에이전트가 동시에 분석
/industry-funnel — 전체 시장을 깔때기처럼 좁혀 종목 압축
/quality-screen — 7개 하드 지표로 열위 종목 먼저 제거
/news-pulse — 주가 이상 변동을 10분 만에 원인 분석
/dyp-ask — 돤융핑 스타일 문답

2층 — Agent(병렬 두뇌)

여기서 말하는 **Agent(에이전트)**는 특정 작업을 맡은 AI 일꾼입니다. 각 Skill 안에서 4개의 Agent가 동시에 일합니다. 각자 독립적으로 자료를 찾고, 독립적으로 판단한 뒤, 서로의 결론을 반박(adversarial, 의도적으로 흠을 찾는 토론)하고, 마지막에 Team Lead(팀장 역할 AI)가 종합합니다.

3층 — Tool(정밀 도구)

LLM(거대 언어모델)은 숫자 암산에 약합니다. 그래서 정밀 계산은 Python 도구가 맡습니다. 대표적으로 financial_rigor.py는 PE·ROE 같은 지표를 Decimal(반올림 오차 없는 정밀 숫자 방식)로 계산하고 시가총액을 수동 검산합니다. 그 외에도 중국 본토 주식 데이터 수집, 투자 커뮤니티 스크래퍼, 모멘텀 백테스트, 보고서 사실 감사(report_audit.py) 등 9개 도구가 있습니다.

실제로 이 프레임워크에는 텐센트·엔비디아·테슬라·SK하이닉스 등 수백 편의 누적 리서치 보고서가 회사별 폴더로 정리돼 있습니다. 데모가 아니라 실제로 대량 산출에 쓰이고 있다는 강한 증거죠.

멀티에이전트 병렬: 왜 단일 챗봇보다 나은가요?

여기가 핵심입니다. 일반 챗봇에 "이 종목 어때?"라고 물으면 흔히 두루뭉술한 양비론이 돌아옵니다. "장점도 있지만 위험도 있습니다" 같은, 의사결정에 쓸 수 없는 답이죠.

AI Berkshire의 멀티에이전트 병렬(여러 AI 일꾼이 동시에 일하는 구조)은 이걸 다르게 풉니다. /investment-team을 실행하면 4개 Agent가 동시에 돌아가면서 4배의 검색량, 4배의 출처, 4개의 독립적 시각을 만들어냅니다. 그리고 서로의 논리를 반박합니다.

비유하자면, 한 명의 분석가에게 보고서를 맡기는 대신 성향이 다른 4명을 한 회의실에 넣고 끝장 토론을 시킨 뒤 팀장이 정리하는 것입니다. 혼자서는 보지 못하는 모순과 긴장이 드러나죠. 이 "maker(만드는 자) ≠ checker(검증하는 자)" 철학은 좋은 리서치의 기본 원리이기도 합니다.

AI Berkshire의 6대 차별점

직접 AI에게 묻는 것과 비교했을 때 이 프레임워크가 가진 6가지 장치입니다.

강제 결론 — "통과 / 불통과 / 회색지대"를 반드시 정하고, 구체적 가격 구간과 공격·안정·보수 단계별 의견까지 냅니다. "5문장으로 설명 못 하면 안 산다"는 거울 테스트(镜子测试)를 적용합니다.
4대 거장의 시각 대립 — 단일 명령으로는 못 만드는 모순을 일부러 만듭니다. 예를 들어 핀둬둬(拼多多) 분석에서 돤융핑과 버핏은 비교적 긍정적이지만, 멍거는 "해자(경쟁 우위)가 얕다"며 신중하고, 리루는 "경영진 문화가 불확실하다"며 가장 낮게 평가하는 식입니다. (모두 레포가 재구성한 평점이며, 거장 본인들의 실제 의견은 아닙니다.)
구조화된 반(反)편향 — 자료가 많으면 "확실하다"고 착각하는 함정을 막기 위해 정보 풍부도를 A/B/C 등급으로 나눕니다. 멍거식 역검증("이 회사가 어떤 경우에 죽나?"), 8개 레드라인 즉시 부결(예: 경영진 정직성에 오점이 있으면 밸류와 무관하게 탈락), 모르면 "회색지대"로 남기는 여백 원칙 등이 들어갑니다.
금융 데이터 정밀성 — LLM 암산을 신뢰하지 않고, 핵심 데이터는 2개 이상의 독립 출처로 교차 검증하며, 시가총액은 도구로 수동 검산합니다.
재현 가능성 — 같은 입력에는 일관된 구조와 깊이의 결과가 나옵니다. 여러 회사를 같은 잣대로 비교하거나, 시간이 지난 뒤 다시 분석하거나, 팀원끼리 기준을 맞추기에 유리합니다.
멀티에이전트 병렬 — 위에서 설명한 4배의 깊이입니다.

한계와 주의할 점

흥미로운 프로젝트지만, 반드시 짚어야 할 한계가 있습니다.

투자 자문이 아닙니다. 이 글도, 원 프로젝트도 특정 종목의 매수·매도 권유가 아닙니다. 어디까지나 도구와 방법론 소개입니다.
실적은 독립 검증이 불가능합니다. 레포가 공개한 수익률은 작성자 본인의 자기공개 주장이며, 레포에도 면책조항이 있습니다. (자세한 내용은 아래 FAQ에서 다룹니다.)
중화권 시장에 편중돼 있습니다. 데이터 소스·분석 대상·언어가 중국 중심이라, 한국이나 미국 투자자가 그대로 쓰기엔 데이터 커버리지·규제·세제 차이를 주의해야 합니다.
LLM 환각(없는 사실을 그럴듯하게 지어내는 현상) 위험이 남아 있습니다. 사실 감사·교차 검증·수동 검산 같은 방어 장치가 있지만, LLM 기반인 이상 위험이 0은 아닙니다. 산출물은 반드시 1차 자료와 대조해야 합니다.

QJC 시사점: 전문성의 Skill 시스템화

AI Berkshire가 우리에게 주는 진짜 교훈은 투자가 아니라 일하는 방식에 있습니다.

버핏·멍거 같은 거장의 암묵지(말로 다 설명 못 하는 노하우)를 .md 형식의 Skill과 Python 도구로 명문화했다는 점이 핵심입니다. 이렇게 하면 노하우가 재현 가능하고, 전수 가능하고, 버전 관리되는 자산으로 바뀝니다. 머릿속에만 있던 전문성이 코드 자산이 되는 것이죠.

이건 작은 기업의 AI 전환에서 그대로 통하는 패턴입니다. 컨설팅·운영·리서치 노하우를 도구와 규칙으로 시스템화하면, 한 사람의 경험이 조직 전체가 반복해서 쓰는 자산이 됩니다. "작은 주체가 AI 에이전트로 전문가팀처럼 일한다"—AI Berkshire는 그 가능성을 오픈소스로 증명한 셈입니다.

참고로 앤트로픽도 2026년 5월 "Claude for Financial Services"를 발표하며 AI 에이전트를 "Skill + Connector + Subagent"로 정의했는데, AI Berkshire의 3층 구조는 이 공식 패러다임과 정확히 맞아떨어집니다. 즉 이 프로젝트는 그 패러다임의 커뮤니티 자생 실증이라 볼 수 있습니다.

마무리

AI Berkshire는 "AI가 투자를 대신해준다"는 이야기가 아닙니다. 개인이 전문가의 사고 절차를 코드로 시스템화하면, 한 사람도 리서치팀처럼 일할 수 있다는 구조적 증명입니다. 강제 결론, 거장들의 대립, 반편향 장치, 데이터 정밀성, 재현성, 멀티에이전트 병렬—이 6가지가 단순 챗봇과의 차이를 만듭니다.

여러분의 분야는 어떤가요? 머릿속에만 있는 전문성을 Skill과 도구로 코드화하면, 그게 바로 AI 전환의 시작입니다. 종목이 아니라 방법을 자산화하는 관점으로 이 프로젝트를 들여다보시길 권합니다.

자주 묻는 질문 (FAQ)

Q: AI Berkshire는 투자 자문이나 종목 추천 도구인가요?

아닙니다. AI Berkshire는 가치투자 리서치 절차를 시스템화한 오픈소스 도구이고, 이 글도 그 구조와 방법론을 분석하는 글입니다. 특정 종목의 매수·매도를 권하지 않으며, 산출물은 참고 자료일 뿐 투자 결정의 책임은 사용자 본인에게 있습니다.

Q: 레포에 적힌 수익률(2024년 +69.29%, 2025년 +66.38%)은 진짜인가요?

이 수치는 프로젝트 작성자가 스스로 공개한 주장이며, 제3자가 독립적으로 검증하지 않았습니다. 레포 자체에도 "과거 수익이 미래를 보장하지 않는다"는 면책조항이 있습니다. 증권사 스크린샷이 제시됐지만, 표본 편향이나 기간 선택 효과를 배제할 수 없고, 무엇보다 프레임워크의 기여분과 작성자 개인 판단의 기여분을 분리할 수 없습니다. 따라서 "이 도구를 쓰면 N% 번다"는 식으로 받아들이면 안 됩니다. 어디까지나 "성과 주장"으로만 보세요.

Q: 한국 주식이나 미국 주식도 분석할 수 있나요?

기술적으로 LLM 기반이라 다른 시장도 시도할 수는 있지만, 데이터 수집 도구와 누적된 보고서가 중화권 종목(A주, 쉐치우 커뮤니티 등) 중심입니다. 한국·미국 종목은 데이터 커버리지가 부족할 수 있고, 규제·세제·회계 기준 차이도 고려해야 합니다. 로드맵에는 데이터 소스 확장 계획이 있지만 2026년 6월 기준 진행 중입니다.

Q: Claude Code가 뭔가요? 개발자가 아니어도 쓸 수 있나요?

Claude Code는 앤트로픽이 만든 AI 도구로, 터미널(명령어 입력 화면)에서 AI에게 작업을 시키는 프로그램입니다. AI Berkshire를 쓰려면 레포를 내려받아 Skill 파일을 복사하고 명령어로 실행하는 약간의 셋업이 필요해서, 완전 비전공자에게는 진입 장벽이 있습니다. 다만 이 글의 목적은 "직접 따라 하세요"가 아니라, 이런 식으로 전문가 워크플로를 코드로 시스템화할 수 있다는 개념과 패턴을 이해하는 데 있습니다.

Q: 단일 AI 챗봇에 물어보는 것과 뭐가 그렇게 다른가요?

가장 큰 차이는 "강제 결론"과 "멀티에이전트 대립"입니다. 일반 챗봇은 안전하게 양비론으로 답하는 경향이 있지만, AI Berkshire는 통과/불통과/회색지대 중 하나를 반드시 정하고 가격 구간까지 제시합니다. 또 4개의 AI가 동시에 분석하고 서로 반박하게 만들어, 혼자서는 놓치는 모순을 드러냅니다. 검증과 반편향 장치가 절차에 박혀 있다는 점이 결정적 차이입니다.

AI Berkshire 분석: Claude Code와 AI 에이전트로 만든 1인 가치투자 리서치팀