
전통적인 AI 벤치마킹 기술이 부적절하다는 것이 밝혀지자, AI 빌더들은 생성적 AI 모델의 능력을 평가하기 위해 더 창의적인 방법으로 돌아서고 있습니다. 한 그룹의 개발자들에게는 마인크래프트가 그것입니다. 마이크로소프트 소유의 모래상자 건축 게임입니다.
MC-Bench 라는 웹사이트는 AI 모델을 상호대결시켜 마인크래프트 창작물에 대한 프롬포트에 응답하도록 개발되었습니다. 사용자들은 어떤 모델이 더 나은 작업을 했는지 투표하고, 투표 후에만 각 AI가 만든 마인크래프트 빌드를 볼 수 있습니다.

MC-Bench를 시작한 12학년생인 아디 싱은 마인크래프트의 가치가 게임 그 자체가 아니라 사람들이 그것을 얼마나 잘 알고 있는지에 있습니다. 결국, 그것은 시간 내에 가장 많이 판매된 비디오 게임입니다. 게임을 한 적이 없는 사람도 파인애플의 블록 모양 표현 중 어떤 것이 더 잘 되었는지를 평가할 수 있습니다.
싱은 TechCrunch에게 말했습니다. “마인크래프트는 사람들이 [AI 개발의 진전]을 훨씬 더 쉽게 볼 수 있습니다. 사람들은 마인크래프트에 익숙하며 룩과 분위기를 알고 있습니다.”
MC-Bench는 현재 8명의 자원 봉사자를 명단에 올려놓고 있습니다. Anthropic, Google, OpenAI 및 Alibaba는 각자의 제품 사용을 위해 프로젝트를 보조하고 있지만, 회사들은 그 외에는 어떠한 관련도도 없습니다.
“현재는 GPT-3 시대부터 얼마나 나아졌는지를 반영하기 위해 간단한 빌드만을 수행하고 있지만, 더 긴 형식의 계획 및 목표지향적 작업에 확장될 수도 있습니다.” 싱은 말했습니다. “게임은 현실 생활에서의 테스트보다 안전한 상황에서 에이전트적 추론을 시험하는 데 더 적합하고 테스트 목적에 더욱 컨트롤이 가능하므로, 내 눈엔 더 이상적입니다.”
AI의 실험적 벤치마킹으로는 포켓몬 레드, 스트리트 파이터, 그리고 픽션너리와 같은 다른 게임들이 사용되었습니다. 이는 AI의 벤치마킹 예술이 악명높기 때문입니다.
다수의 연구원들이 AI 모델을 표준화된 평가에서 테스트하지만, 이러한 테스트 중 많은 것들이 AI에게 유리한 조건을 제공합니다. 훈련받은 방식으로 인해 모델은 특정한, 한정된 종류의 문제 해결에 자연스럽게 능숙하며, 특히 부단한 기억 또는 기본적인 추론이 필요한 문제 해결에 뛰어납니다.
간단히 말하자면, OpenAI의 GPT-4가 LSAT에서 88번째 백분위로 점수를 받을 수는 있지만, '딸기'라는 단어에 몇 개의 R이 있는지를 알아내지 못할 수 있습니다. Anthropic의 Claude 3.7 소네트는 표준 소프트웨어 엔지니어링 벤치마킹에서 62.3%의 정확도를 달성했지만, 대부분의 5세 이하 어린이들보다 포켓몬을 잘하진 않습니다.

MC-Bench는 기술적으로 프로그래밍 벤치마크이며, 모델은 '프로스트 더 스노우맨'이나 '깨끗한 모래 해안에 사랑스러운 열대 해변 오두막'과 같은 프롬프트 빌드를 만들기 위해 코드를 쓰도록 요청됩니다.
그러나 대부분의 MC-Bench 사용자들에겐 눈사람이 어떻게 보이는지를 평가하는 것이 코드를 파헤치는 것보다 쉽기 때문에, 프로젝트는 더 넓은 관심을 받을 수 있으며, 따라서 어떤 모델이 일관되게 더 나은 점수를 받는지에 대한 더 많은 데이터를 수집할 수 있는 잠재력을 가지고 있습니다.
그 점수가 얼마나 AI 유용성에 기여하는지는 논란의 여지가 있습니다. 싱은 그것이 강력한 신호라고 주장합니다.
“현재 리더보드는 나의 경험과 매우 밀접하게 일치합니다. 그것은 순수 텍스트 벤치마크들과는 다릅니다,” 싱은 말했습니다. “아마도 [MC-Bench]는 회사에게 자신들이 올바른 방향으로 향하고 있는지를 알 수 있는 유용한 도구가 될지도 모릅니다.”