슈퍼마리오 게임을 두고 오픈AI, 앤트로픽, 구글의 인공지능(AI) 경쟁을 펼쳤다. 가장 게임을 잘한 AI는 앤트로픽이었다. 이번 결과는 추론, 비추론 통합 모델의 효능을 입증한 하나의 사례가 됐다.
4일 테크크런치에 따르면 캘리포니아 대학교 샌디에이고 캠퍼스(University of California San Diego)의 연구 기관인 하오 AI 랩(Hao AI Lab)은 지난달 28일 슈퍼마리오 브라더스 게임에 AI를 적용했다. 해당 연구에서 앤트로픽의 클로드 3.7이 가장 좋은 성과를 보였고 클로드 3.5가 그 뒤를 이었다. 구글의 제미나이 1.5 프로와 오픈AI의 GPT-4o는 고전한 것으로 나타났다.
앤트로픽의 클로드 3.7은 추론과 비추론을 통합한 모델이다. 앤트로픽은 추론 모델을 기존 대형언어모델(LLM)과 결합해 서비스 중 발생하는 오류와 문제들을 모델이 직접 수정하고 보완할 수 있도록 했다. AI가 답변 전에 스스로 생각하고 검토하는 과정을 거쳐 할루시네이션(환각) 현상을 줄였다.
연구진들은 에뮬레이터에서 게임을 실행했고 ‘게이밍에이전트’(GamingAgent)라는 프레임워크와 통합시켜 AI가 마리오를 실제로 제어할 수 있도록 했다. 이들은 1985년 출사한 오리지널 릴리스와 같은 버전은 아니라고 설명했다.
연구진들은 AI에 ‘장애물이나 적이 가까이 있으면 왼쪽으로 이동하거나 점프해 피하라’와 같은 기본 지침과 게임내 스크린샷을 통해 학습시켰다. 이후 파이썬 코드 형태로 입력값을 생성해 AI가 마리오를 제어할 수 있도록 했다.
이들은 AI모델들이 복잡한 작전을 계획하고 게임플레이 전략을 개발하도록 훈련시켰다. 이들은 이를 통해 오픈AI의 ‘o1’과 같은 추론모델이 비추론모델보다 슈퍼마리오 게임의 성과가 나쁘다는 것을 발견했다.
이들 연구진들은 “추론 모델이 이런 게임을 하는 데 더 불리한 이유 중 하나는 추론 모델의 경우 행동을 결정하는 데 보통 몇 초의 시간이 걸리기 때문”이라며 “슈퍼마리오 브라더스는 타이밍이 중요한 게임으로 단 1초 만에 안전하게 점프하냐 추락하냐가 결정된다”고 설명했다.