오픈소스 데이터셋으로 AI가 백엔드까지 만드는 법 — GitHub 1위 사례로 보기

터키 개발자 한 명이 관리하던 운동 데이터셋 저장소가 2026년 6월 30일 GitHub 트렌딩 1위에 올랐습니다. 놀라운 건 데이터셋 자체보다 그 안에 끼워 넣은 방식이었어요. 개발자가 프롬프트 하나를 Claude나 ChatGPT에 붙여넣기만 하면, 그 데이터셋을 다루는 완성된 백엔드 코드가 나오도록 설계해둔 겁니다. 오픈소스 데이터셋으로 AI 백엔드를 자동 생성하는 이 방식은 데이터와 AI 코드 생성이 어떻게 한 세트로 묶여 배포되는지 보여주는 실제 사례고, 동시에 AI가 오픈소스에 직접 커밋을 남긴 사례와 저작권 논쟁까지 함께 담고 있어서 살펴볼 만합니다.

개요: 무슨 일이 있었나

저장소 이름은 hasaneyldrm/exercises-dataset이고, 관리자는 GitHub 아이디 @hasaneyldrm을 쓰는 개발자예요. 2026년 3월 18일에 처음 만들어졌고, 지금은 1,324개 피트니스 운동 데이터(부위, 타겟 근육, 필요 장비, 단계별 설명)를 영어·스페인어·이탈리아어·터키어·러시아어·중국어 6개 언어로 제공합니다.

2026년 6월 30일에 GitHub 트렌딩 1위에 처음 올랐고, 이 글을 쓰는 2026년 7월 1일 기준으로 스타 6,719개, 포크 807개예요. 직전 일주일 동안 스타가 3,600개, 포크가 453개 늘었으니 확산 속도가 상당히 가팔랐던 셈이죠.

저장소에는 데이터 파일 말고도 순수 HTML로 만든 도구 두 개가 들어 있습니다. index.html은 1,324개 운동을 부위·장비·타겟 근육으로 검색·필터링하는 브라우저고, setup.html은 개발자용 셋업 마법사예요. 뒤에서 자세히 볼 Ask Your LLM 프롬프트가 바로 이 setup.html 안에 있습니다.

오픈소스 데이터셋이 갑자기 화제가 된 이유

트렌딩 1위에 오른 것과 같은 날인 2026년 6월 30일, 저장소는 커밋 메시지 "Remove bundled exercise media; data-only setup wizard"와 함께 운동 썸네일 이미지와 GIF를 전부 삭제했어요. README에는 새 공지(Notice) 섹션이 생겼는데, 미디어 소유권을 둘러싸고 상충하는 주장이 여러 건 있어서 더 이상 재배포하지 않는다고 밝히고 있습니다.

이 결정의 뿌리는 그보다 한 달 전으로 거슬러 올라갑니다. 2026년 5월 30일 개설된 Issue #3 "Copyright issues?"에서 사용자들이 "이 데이터를 Play Store 앱 같은 상업 서비스에 써도 되냐"고 물었고, 2026년 6월 29일 코멘트에서 "교육·비상업 목적으로만 명시돼 있고, 상업적으로 쓰려면 유지관리자에게 직접 허가를 받아야 한다"는 답이 달렸어요. 같은 날 다른 사용자는 "본인 소유가 아닌 걸 오픈소스라고 선언할 수는 없다"고 지적하기도 했습니다. 이 논의 직후 미디어가 통째로 삭제된 흐름을 보면, 저작권 이슈가 실제 저장소 운영에 영향을 준 걸 확인할 수 있어요.

한편 화제성을 더 키운 건 다국어 확장이 커뮤니티 PR로 사흘 연속 이어졌다는 점이에요. 2026년 6월 28일 스페인어(뒤에서 자세히 다룰 AI 커밋), 6월 29일 러시아어(PR #9), 6월 30일 중국어(PR #10)가 잇따라 추가됐고, 아직 열려 있는 이슈 목록에는 아랍어 추가·정통 중국어(zh-TW) 추가·전체 데이터셋을 1,500개로 확장하는 로드맵까지 올라와 있습니다.

"Ask Your LLM"으로 백엔드를 통째로 만드는 법

이 저장소가 다른 데이터셋 저장소와 다른 지점은 setup.html이 하는 일이에요. 이 페이지는 세 가지를 브라우저에서 즉시 만들어줍니다.

DB 스키마 생성: PostgreSQL, MySQL, SQLite, SQL Server 중 원하는 DB를 고르면 CREATE TABLE 문과 INSERT 문을 바로 생성
API 클라이언트 코드 생성: JS, Python, C#, Java, PHP, Go, cURL 등 원하는 언어로 API 호출 코드를 생성
"Ask Your LLM" 프롬프트: DB 스키마와 API 클라이언트 코드를 이미 담고 있는 구조화된 프롬프트를 하나 만들어서, Claude·ChatGPT·Gemini 같은 LLM에 붙여넣으면 Express.js, FastAPI, ASP.NET Core, Spring Boot, Laravel, Gin 중 선택한 프레임워크로 완성된 REST API를 한 번에 만들어줌

Ask Your LLM이 하는 일: 데이터셋의 DB 스키마와 API 클라이언트 코드를 미리 담은 프롬프트를 만들어, 개발자가 원하는 백엔드 프레임워크(Express/FastAPI/Spring Boot 등)로 완성된 REST API를 LLM이 한 번에 생성하도록 설계한 방식입니다.

이게 바로 오픈소스 데이터셋 AI 백엔드 생성이 실제로 작동하는 모습이에요. 개발자가 손으로 스키마를 짜고 API 코드를 하나하나 작성하는 대신, 데이터셋 관리자가 미리 준비해 둔 프롬프트 한 장이 그 작업을 대신해주는 거죠. Claude Code처럼 코드를 직접 작성·실행할 수 있는 도구에 이 프롬프트를 그대로 넣으면, 스키마 생성부터 API 라우트 작성까지 한 세션 안에서 끝낼 수 있습니다.

AI가 오픈소스에 직접 기여한 사례 — "claude" 계정 커밋

여기서 흥미로운 대목이 하나 더 있어요. 2026년 6월 28일에 올라온 커밋(SHA 2527d70)의 커밋 메시지는 "using direct LLM translation with a shared glossary for terminology consistency"라고 적혀 있고, GitHub 기여자 목록에는 "claude"라는 계정이 커밋 1건으로 올라와 있습니다.

이 커밋 하나가 처리한 작업은 1,324개 운동 전체의 스페인어 번역이에요. 용어가 제각각으로 번역되지 않도록 공통 용어집을 만들어두고, 그 용어집을 기준으로 LLM이 전체 데이터를 일괄 번역한 방식이었죠. 사람이 1,324개 항목을 손으로 옮기는 대신, AI가 번역 작업 전체를 맡아서 커밋까지 남긴 사례라는 점이 눈에 띕니다.

"AI 에이전트가 오픈소스 유지보수에 실제로 참여한다"는 이야기는 요즘 여기저기서 들리지만, 이렇게 커밋 로그에 계정명과 커밋 메시지로 구체적으로 남아 있는 사례는 흔치 않아요. 대량 번역이나 반복적인 데이터 정제 작업을 AI에게 맡기는 방식이 실제로 어떻게 동작하는지 보여주는 실물 예시라고 할 수 있습니다.

라이선스와 저작권, 꼭 확인해야 할 것들

이 저장소의 데이터는 원래 ExerciseDB v1(AscendAPI)에서 왔고, 그걸 Kaggle에 재호스팅한 버전(사용자 omarxadel)을 거쳐 수집됐다고 README에 나와 있어요. 그런데 정작 이 저장소 자체에는 명시된 라이선스가 없습니다(GitHub API 기준 license: null).

앞서 본 것처럼 Issue #3에서는 상업적 이용 가능 여부를 두고 논쟁이 있었고, 관리자 쪽 답변은 "교육·비상업 목적으로만 명시돼 있고, 상업적으로 쓰려면 관리자에게 직접 허가를 받아야 한다"였어요. 그 논의 직후 저작권 소유권 주장이 상충한다는 이유로 미디어 파일이 전부 삭제됐습니다. 여기서 짚어야 할 건, README도 "누가 저작권을 침해했다"고 특정하지 않고 "복수의 상충하는 소유권 주장이 있다"고만 서술한다는 점이에요. 그러니 이 사례를 다룰 때도 특정 개인이나 기업을 침해자로 단정할 근거는 없습니다.

스타 6,700개가 넘고, 다운로드도 자유롭고, PR도 활발히 올라오는 저장소라고 해서 "자유롭게 상업적으로 써도 되는 데이터"라는 뜻은 아니라는 걸 이 사례가 잘 보여줘요.

QJC가 주목하는 지점: 우리 실무에 주는 시사점

퀀텀점프클럽 독자분들처럼 Claude Code나 AI 에이전트로 실제 서비스를 빠르게 만들어보는 입장에서 이 사례를 보면 세 가지가 눈에 들어옵니다.

첫째, "데이터 + 프롬프트" 패키징이 실전에서 통한다는 점이에요. 데이터셋만 던져주는 게 아니라 그 데이터를 다루는 백엔드 코드까지 한 번에 뽑아낼 수 있는 프롬프트를 함께 배포하는 방식은, 우리가 사내 도구나 MVP 백엔드를 빠르게 세팅할 때도 그대로 가져다 쓸 수 있는 아이디어입니다. 데이터 스키마와 API 요구사항을 프롬프트 한 장으로 정리해두면 Claude Code 세션 하나로 백엔드 초안이 나오는 흐름을 만들 수 있어요.

둘째, AI가 반복 작업의 실제 기여자로 등장하는 흐름이 점점 자연스러워지고 있어요. "claude" 계정이 GitHub 기여자 목록에 오른 것처럼, 앞으로는 번역·데이터 정제·문서화 같은 반복 작업을 AI 에이전트가 맡고 그 결과가 커밋 이력에 그대로 남는 워크플로우가 더 흔해질 겁니다. 이런 흐름을 미리 눈여겨봐 두면, 우리 팀의 자동화 파이프라인을 설계할 때도 참고할 지점이 많아요.

셋째, 가장 실용적인 교훈은 AI로 빨리 만들 수 있을수록 라이선스 확인은 더 꼼꼼히 해야 한다는 거예요. Ask Your LLM 같은 도구 덕분에 데이터셋을 붙여넣고 몇 분 만에 백엔드를 완성할 수 있는 시대인 만큼, 그 몇 분을 아끼려다 원본 데이터의 저작권 상태를 확인하지 않고 넘어가는 실수를 하기 쉽습니다. 오픈소스 데이터셋을 실제 서비스에 붙이기 전에는 README의 라이선스 항목, 그리고 이슈 탭에 "copyright"나 "license" 같은 키워드로 검색해보는 습관이 필요해요.

마무리

정리하면, exercises-dataset은 오픈소스 데이터셋 AI 백엔드 생성이라는 흐름을 잘 보여주는 사례예요. 1,324개 운동 데이터를 6개 언어로 제공하면서, Ask Your LLM 프롬프트로 백엔드 코드까지 한 번에 뽑아낼 수 있게 설계했고, AI 계정이 실제로 오픈소스 번역 작업을 커밋했고, 동시에 라이선스가 불분명한 데이터를 다룰 때 어떤 문제가 생기는지도 실제 이슈 논쟁으로 보여줬습니다.

AI가 코드 작성 속도를 획기적으로 끌어올린 지금, 데이터를 빠르게 붙여서 서비스를 만드는 것만큼이나 그 데이터를 써도 되는지 확인하는 습관이 중요해졌어요. 여러분 팀에서 오픈소스 데이터셋을 활용해 백엔드를 자동 생성해볼 계획이 있다면, 이 사례를 체크리스트 삼아 라이선스부터 먼저 확인해보시길 권합니다.

자주 묻는 질문 (FAQ)

Q: exercises-dataset은 상업적으로 써도 되나요?

명시된 라이선스가 없고, README와 이슈 트래커에서 교육·비상업 목적으로만 쓰라고 밝히고 있어요. Play Store 앱 같은 상업 서비스에 쓰려면 저장소 관리자에게 직접 허가를 받아야 합니다.

Q: "Ask Your LLM" 프롬프트는 어떤 백엔드 프레임워크를 지원하나요?

Express.js, FastAPI, ASP.NET Core, Spring Boot, Laravel, Gin 여섯 가지 중에서 고를 수 있어요. DB는 PostgreSQL, MySQL, SQLite, SQL Server 중 선택해 스키마와 API 코드를 함께 생성합니다.

Q: "claude" 계정 커밋은 진짜 AI가 직접 작업한 건가요?

2026년 6월 28일 커밋(SHA 2527d70)의 메시지에는 "공통 용어집 기반 LLM 번역을 직접 사용했다"고 적혀 있고, GitHub 기여자 목록에도 "claude" 계정이 등록돼 있어요. 1,324개 운동 전체의 스페인어 번역을 이 방식으로 처리한 사례입니다.

오픈소스 데이터셋으로 AI가 백엔드까지 만드는 법 — GitHub 1위 사례로 보기