오픈AI, 장시간 코딩 가능한 AI 모델 ‘GPT-5.1 코덱스 맥스’ 공개

2025-11-21 유덕규 기자

GPT-5.1 코덱스 맥스의 SWE 벤치마크. /오픈AI

오픈AI가 장시간 코딩 작업에 특화된 새로운 인공지능(AI) 모델 ‘GPT-5.1 코덱스 맥스(GPT-5.1-Codex-Max)’를 공개했다. GPT-5.1 출시와 함께 공개된 ‘GPT-5.1 코덱스(GPT-5.1-Codex)’ 출시 일주일여 만이다.

19일(현지시간) 더뉴스택 등 외신들에 따르면 이번 모델은 소프트웨어 엔지니어링, 수학, 연구 등 다양한 분야의 에이전트 작업을 학습한 추론 모델을 기반으로 개발됐다. GPT-5.1 코덱스 맥스의 가장 큰 특징은 ‘컴팩션(compaction)’이라는 기술이다. 이 기술을 통해 모델은 여러 컨텍스트 윈도우(문맥 창)에 걸쳐 작업하며, 단일 작업에서 수백만 개의 토큰을 일관되게 처리할 수 있다. 컴팩션은 모델이 컨텍스트 윈도우 한계에 도달하면 작업 기록을 정리하면서도 중요한 문맥은 보존하는 방식이다. 이를 통해 프로젝트 전체 규모의 리팩토링, 심층 디버깅 세션, 여러 시간에 걸친 에이전트 작업이 가능해졌다.

오픈AI 내부 평가에서는 GPT-5.1 코덱스 맥스가 24시간 이상 작업을 수행하는 것이 관찰된 것으로 알려졌다. 모델은 구현을 지속적으로 반복하고 테스트 오류를 수정하며 결과를 완성한다.

코딩 능력을 측정하는 ‘SWE-벤치 베리파이드 테스트’에서 GPT-5.1 코덱스 맥스는 최고 설정에서 77.9%를 기록했다. 이는 구글의 제미나이 3(76.2%), 앤트로픽의 클로드 소넷 4.5(77.2%)를 앞선 수치다. 터미널벤치 2.0에서는 58.1%를 기록해 제미나이 3(54.2%)와 소넷 4.5(50%)를 웃돌았다.

GPT-5.1 코덱스 맥스는 더 효과적인 추론으로 토큰 효율성이 크게 향상됐다. SWE-벤치 베리파이드에서 ‘중간’ 추론 설정으로 이전 모델인 GPT-5.1 코덱스와 동일한 성능을 내면서도 생각 토큰은 30% 적게 사용했다. 오픈AI는 자사의 블로그를 통해 실제 코딩 작업에서 코덱스 맥스가 이전 모델보다 27~42% 빠르다고 설명했다. 더 적은 토큰과 도구 호출로 유사하거나 더 나은 결과를 만들어냈다는 것이 오픈AI의 설명이다.

GPT-5.1 코덱스 맥스는 오픈AI가 윈도우 환경에서 작동하도록 학습시킨 첫 번째 모델이다. 이 모델은 PR(풀 리퀘스트) 생성, 코드 리뷰, 프론트엔드 코딩, 질의응답 같은 실제 소프트웨어 엔지니어링 작업을 학습했다. GPT-5.1 코덱스 맥스는 현재 코덱스의 명령줄 인터페이스(CLI), 통합개발환경(IDE) 확장, 클라우드, 코드 리뷰 기능에서 사용할 수 있다. 챗GPT 플러스, 프로, 비즈니스, 에듀, 엔터프라이즈 요금제 사용자들이 이용 가능하다. API 접근은 곧 제공될 예정이다.

한편, 오픈AI와 구글이 서로 코딩에 강점을 지닌 AI 모델들을 공개해 앤트로픽의 다음 행보에 대한 귀추가 주목된다. 앤트로픽은 자사의 AI 모델인 클로드의 출시 초기부터 △코드 해석 능력 △디버깅 정확도 △긴 문맥 처리 △안정적인 논리 추론 등에서 강세를 보인다고 설명했고, 개발자 커뮤니티(깃허브·스택오버플로우·해커뉴스 등)에서는 코드 작성에서는 ‘클로드가 최고다’는 반응이 지속적으로 나타났다. 해외 커뮤니티에서는 이번 GPT-5.1 코덱스 맥스의 출시와 지난 19일 제미나이 3 프로 출시 등 코딩 부분에서 밀린 앤트로픽의 다음 모델에 대한 기대감이 더욱 높아지고 있다.