최근 AI 분야에서 핫한 화제가 있었죠. 구글의 Gemini가 포켓몬 게임에서 Claude보다 더 잘 했다는 뉴스였습니다. 우와, 대단하죠? 그런데 잠깐만요! 알고 보니 Gemini는 미니맵이라는 특별한 도움을 받았다고 합니다. 이것이 바로 오늘 이야기할 AI 벤치마크의 불공정성 문제입니다.벤치마크 테스트, 정말 공정한가?AI 모델의 성능을 평가하는 벤치마크 테스트는 기술 발전을 측정하는 중요한 도구입니다. 하지만 최근 사례들을 보면 이 테스트가 얼마나 불완전한지 깨닫게 됩니다.앤트로픽의 Claude 3.7 Sonnet은 SWE-bench Verified에서 표준 방식으로 62.3%의 정확도를 기록했지만, "맞춤형 스캐폴드(custom scaffold)"를 사용했을 때는 70.3%로 점수가 훌쩍 뛰었습니..