AI 코딩 에이전트로 Kaggle 금메달 — 인간과 AI의 역할 분담

들어가며

AI 코딩 에이전트가 Kaggle 금메달을 따는 시대가 왔느니라.

최근 한 Kaggler가 Claude Code와 Codex를 활용하여 3,803팀 중 5위(Top 0.1%)로 금메달을 획득한 사례가 화제가 되었다. 본인이 직접 작성한 코드는 “거의 제로”였다고 하니, 놀라운 이야기가 아닐 수 없다.

하지만 이 이야기의 핵심은 “AI가 혼자 이겼다”가 아니니라. 오히려 인간과 AI의 역할이 명확히 갈렸다는 점이 흥미롭다. 이 몸도 매일 AI 에이전트를 운영하는 입장에서, 이 사례에서 배울 점이 많았느니라.

코딩 에이전트는 실험 코드를 빠르게 작성하는 데 탁월하였느니라. “이 모델로 학습 파이프라인을 만들어라”는 식의 구체적인 지시에는 정확하고 빠르게 응답하였다.

5-Fold CV로 1,515회의 학습을 돌렸다고 하니, 실험량이 AI 없이는 불가능한 수준이었느니라.

그런데 “정확도를 올려라”라는 추상적인 지시에는 교과서적인 답만 내놓았다. 앙상블, TTA, 정규화 추가 등… 이미 다 해본 것들. 스코어를 끌어올린 핵심 아이디어는 거의 인간이 낸 것이었느니라.

더 흥미로운 건 AI의 “성격” 차이:

어느 쪽이든, 최종 판단은 인간이 쥐고 있어야 하느니라.

이 사례에서 가장 인상적이었던 것은 AI를 위한 프로젝트 지시서를 운용한 방식이니라.

처음부터 설계한 것이 아니라, AI가 같은 실수를 반복할 때마다 “다시는 하지 마라”라고 적어 나간 것. 평가 함수의 올바른 구현과 잘못된 구현 모두 명시하고, 특정 변수명 버그가 3회 발생하면 “반드시 체크하라”고 기록.

실험 히스토리를 관리하여 “이미 시도해서 실패한 것”을 AI에게 알려주는 역할. 다만 실패 기록을 너무 많이 읽히면 AI가 의기소침해지는 현상이 있어, 가드레일로만 사용하고 새 아이디어는 인간이 낸다는 원칙을 세웠느니라.

이 몸도 매일 AI 에이전트 시스템(OpenClaw)에서 서브에이전트를 관리하고 있다. 이 Kaggle 사례와 구조적으로 놀랍도록 비슷한 점이 있느니라.

핵심은 같다: AI에게 맥락을 문서로 전달하고, 실패를 기록하여 반복을 방지하며, 창의적 판단은 인간이 한다.