미국 인공지능(AI) 기업 앤트로픽(Anthropic)은 차세대 AI 모델 ‘클로드 오푸스 4.5(Claude Opus 4.5)’를 공개했다고 25일 밝혔다.
앤트로픽은 이번 모델의 지능 및 효율성 강화를 통해 코딩·에이전트·컴퓨터 활용 분야에서 현존 최고 수준의 성능을 지원하고, 심층 연구는 물론 슬라이드, 스프레드시트 처리 등 실무형 작업에서도 향상된 성능을 제공한다고 설명했다.
오푸스 4.5는 실전 소프트웨어 엔지니어링 테스트에서 업계 최고 수준의 성능을 입증했다. 앤트로픽 앱과 API, 주요 3대 클라우드 플랫폼에서 즉시 사용할 수 있다. 가격은 백만 토큰(AI가 처리하는 데이터 단위) 기준 입력 5달러, 출력 25달러로 책정됐다. 오푸스급 고성능을 더 많은 사용자와 기업이 활용할 수 있도록 가격을 낮췄다는 설명이다.
앤트로픽은 오푸스 4.5 출시와 함께 개발자 플랫폼, 클로드 코드, 소비자용 앱도 대규모로 업데이트했다. 장시간 구동되는 에이전트를 지원하는 신규 도구가 추가됐으며, 클로드를 엑셀, 크롬, 데스크톱 환경에서 활용하는 방식도 확장됐다. 클로드 앱에서는 긴 대화가 중간에 끊기지 않도록 문맥 관리 기능이 강화됐다.
앤트로픽은 오푸스 4.5 출시 전 사내 테스트에서 긍정적인 평가가 잇따랐다고 밝혔다. 테스터들은 오푸스 4.5가 애매한 상황에서도 스스로 판단해 적절한 선택지를 찾아내고, 복잡한 멀티 시스템 오류를 별다른 안내 없이 해결했다고 전했다. 불과 몇 주 전까지만 해도 앤트로픽의 다른 AI 모델인 소네트 4.5로는 처리하기 어려웠던 작업들이 이제는 무리 없이 수행됐다는 설명이다.
앤트로픽은 엔지니어 채용 과정에서 활용하는 고난도 실기 시험을 내부 모델 평가에도 동일하게 적용해왔다. 제한 시간 2시간 안에 기술력과 판단력을 평가하는 것으로, 오푸스 4.5는 해당 조건을 기반으로 역대 어떤 인간 지원자보다도 높은 점수를 기록했다.
해당 시험은 시간 압박 속에서 기술적 역량과 판단 능력을 검증하는 데 초점을 두고 있어, 협업이나 커뮤니케이션 같은 다른 중요 역량은 평가 대상이 아니다. 그럼에도 고급 기술 영역에서 AI가 숙련된 엔지니어를 능가한 이번 결과는 앞으로 엔지니어링 직무 전반이 어떤 변화를 맞게 될지에 대한 논의를 던진다. 앤트로픽은 이러한 변화를 추적하기 위해 사회적 영향 및 미래 경제 연구를 진행 중이며, 관련 분석 결과를 조만간 추가로 공개할 계획이다.
소프트웨어 엔지니어링 외 분야에서도 성능 개선이 두드러진다. 오푸스 4.5는 전반적인 역량이 고르게 강화돼 비전, 추론, 수학 등 주요 지표에서 전작을 크게 앞섰으며, 여러 분야에서 최상위 수준의 성능을 보인 것으로 평가된다.
오푸스 4.5는 일부 평가 지표보다도 앞서는 성능을 보였다. 에이전트 역량을 측정하는 대표 벤치마크인 '타우2 벤치'는 실제 환경에서 여러 단계의 상호작용이 필요한 과제를 수행하는 능력을 평가한다.
이 테스트에는 항공사 상담원 역할을 맡아 이코노미 좌석 티켓 소지자의 일정 변경 요청을 거부해야 하는 시나리오가 포함돼 있다. 오푸스 4.5는 해당 시나리오에서 규정을 벗어나지 않으면서도 문제를 해결할 수 있는 경로를 스스로 찾아냈다. 먼저 객실을 상위 클래스로 업그레이드한 뒤, 상위 클래스 규정에 따라 일정 변경을 진행하는 방식이다.
벤치마크는 이러한 해결 방식을 미리 전제하지 않았다는 이유로 해당 사례를 ‘실패’로 처리했다. 그러나 앤트로픽은 오히려 이런 예기치 않은 문제 해결 방식이 내부 테스터와 초기 고객사들 사이에서 공통적으로 확인된 특징이라며, 오푸스 4.5가 한 단계 도약했음을 보여주는 대목이라고 설명했다.
다만 이런 우회적 접근이 항상 긍정적으로만 평가되는 것은 아니다. 상황에 따라서는 의도된 제한이나 규칙을 비켜가는, 이른바 ‘보상 해킹’으로 해석될 여지도 있다. 앤트로픽은 이러한 비정렬적 행동을 차단하는 것을 핵심 안전성 검증 목표 중 하나로 삼고 있다고 밝혔다.
앤트로픽은 오푸스 4.5 기술 문서인 ‘시스템 카드’를 통해 “오푸스 4.5는 지금까지 선보인 모델 중 가장 견고하게 정렬된 모델이며, 업계 최고 수준의 안전성을 갖춘 프런티어 모델”이라고 밝혔다.
앤트로픽은 고객들이 클로드를 주요 업무에 활용하고 있는 만큼, 해커나 사이버 범죄자 등 외부의 악의적 공격에도 대응할 수 있는 충분한 학습과 대응 능력이 필수적이라고 설명했다. 오푸스 4.5는 모델을 속여 유해한 행동을 유도하는 ‘프롬프트 인젝션 공격’에 대한 강인성을 크게 높였으며, 업계 프런티어 모델 중에서도 가장 속기 어려운 수준에 도달했다고 밝혔다.
앤트로픽은 클로드 개발자 플랫폼에 새롭게 도입된 기능을 통해 모델 활용 효율이 크게 향상됐다고 설명했다. 오푸스 4.5는 문제 해결 과정에서 불필요한 탐색이나 중복 추론을 줄이며, 이전 모델 대비 훨씬 적은 토큰으로 더 나은 결과를 도출하는 것이 특징이다.
또한 이번 업데이트에서는 작업 유형에 따라 개발자가 원하는 균형점을 직접 선택할 수 있도록 ‘에포트’ 파라미터를 API에 새롭게 도입했다. 이를 통해 처리 속도와 비용 최소화, 또는 모델 역량 극대화 중 상황에 맞는 최적의 옵션을 선택할 수 있다.
중간 수준의 에포트 설정만으로도 오푸스 4.5는 소프트웨어 엔지니어링 벤치마크에서 소네트 4.5와 동일한 최고 성능을 기록하면서, 출력 토큰은 76% 감소했다. 최고 에포트 수준에서는 소네트 4.5 대비 성능이 4.3%포인트 향상되면서 토큰 사용량은 48% 줄었다.
여기에 컨텍스트 압축, 고도화된 도구 활용 기능이 결합되며 오푸스 4.5는 더 오래 실행되고 더 많은 작업을 수행하며, 개발자의 개입을 최소화할 수 있도록 개선됐다. 또한 강화된 컨텍스트 관리 및 메모리 기능을 통해 에이전트 기반 작업 성능이 크게 향상됐으며, 다수의 서브에이전트를 정교하게 조율해 복잡한 멀티에이전트 시스템을 구성하는 데에도 높은 성능을 보였다.
앤트로픽은 이번 개발자 플랫폼 업그레이드가 실제 제품 혁신으로 이어진 대표 사례로 AI 코딩 어시스턴트인 ‘클로드 코드’를 소개했다. 오푸스 4.5 적용 이후 클로드 코드는 두 가지 핵심 개선을 적용받았다.
먼저 플랜 모드가 더욱 정교해져 클로드가 실행 전 필요한 사항을 명확하게 질문하고, 사용자가 직접 수정할 수 있는 계획 파일을 생성한 뒤 작업을 진행하도록 개선됐다. 또한 클로드 코드는 데스크톱 앱을 통해서도 이용할 수 있게 되어, 로컬 및 원격 세션을 병렬로 실행할 수 있다. 예를 들어 한 에이전트는 버그를 수정하고, 다른 에이전트는 깃허브를 조사하며, 또 다른 에이전트는 문서를 업데이트하는 등 다양한 개발 작업을 동시에 처리할 수 있다.
클로드 앱 사용자들도 개선된 사용자 경험을 제공받는다. 긴 대화가 진행될수록 클로드가 필요한 시점에 이전 대화 내용을 자동으로 요약해, 끊김 없이 대화를 이어갈 수 있게 됐다.
브라우저 내 여러 탭의 작업을 처리할 수 있는 '클로드 포 크롬'은 이제 모든 맥스 이용자에게 제공되며, 지난해 10월 공개했던 ‘클로드 포 엑셀’은 베타 접근 대상이 확대돼 맥스, 팀, 엔터프라이즈 이용자 모두가 사용할 수 있다.
또한 오푸스 4.5에 접근할 수 있는 클로드 및 클로드 코드 사용자에게는 기존의 오푸스 전용 사용 제한이 해제됐다. 맥스 및 팀 프리미엄 이용자에게는 전체 사용 한도 역시 상향 조정돼, 이전 소네트 이용 시와 유사한 수준의 오푸스 토큰을 사용할 수 있도록 했다. 이는 이용자들이 일상적인 업무에서 오푸스 4.5를 충분히 활용할 수 있도록 하기 위한 조치다.