인공지능(AI) 에이전트의 성능을 사람이 일일이 확인하지 않아도 되는 길이 열렸다. AI가 AI를 평가하는 기술이 고도화되고 있어서다.
세일즈포스 AI 리서치팀은 지난 17일 AI 업계의 오랜 숙제였던 ‘신뢰할 수 있는 AI 에이전트 평가’라는 난제를 자동화할 수 있는 연구를 선보였다. AI 에이전트 능력을 완전 자동으로 평가하는 ‘MCPEval’란 프레임워크다. 지난 17일 논문 공유 플랫폼 ‘아카이브(arXiv)’에 공개한 이 연구는 그동안 AI 업계의 오랜 숙제였던 AI 신뢰성 문제를 자동화했다는 평가를 받는다.
이번 연구에는 제1저자인 지웨이 리우(Zhiwei Liu) 세일즈포스 시니어 리서치 사이언티스트를 비롯해 총 12명의 연구진이 참여했다. 리우 박사는 80편 이상의 논문과 12개의 특허를 보유한 연구자로, 시카고 일리노이 대학에서 박사학위 취득 후 세일즈포스에서 멀티에이전트 시스템 설계와 에이전트 추론 최적화 연구를 주도하고 있다.
세일즈포스는 고객관계관리(CRM) 분야 글로벌 리더로 AI 기술을 실제 비즈니스 환경에 적용하는 데 강점을 지니고 있다. 이번 MCPEval 연구도 실용적인 AI 에이전트 개발과 배포에 필요한 평가 체계를 구축하려는 세일즈포스의 전략적 접근의 일환으로 평가된다.
◇ 노동 집약적인 평가 방법을 AI로 자동화
기존 AI 에이전트 평가 방법들은 정적 벤치마크와 노동 집약적인 데이터 수집에 의존해 왔다. 이러한 방식은 수동 작업 생성을 요구하고 복잡한 시나리오에 관한 인간 평가에 의존하거나, 포괄적인 분석 없이 단순한 성공과 실패 여부만을 판단하는 제한적인 평가에 머물러 있었다.
MCPEval은 이러한 한계를 MCP 기반의 완전 자동화 시스템으로 해결한다. MCP가 AI와 외부 도구 간의 표준화된 소통 방식을 제공하는 것처럼, MCPEval은 이를 활용해 AI 에이전트가 다양한 도구와 상호작용하는 능력을 체계적으로 평가할 수 있다. 이 프레임워크는 작업 생성부터 검증, 평가까지 전 과정을 자동화해 수동 병목 현상을 제거하고 확장 가능한 평가 환경을 제공한다.
참고로 MCPEval의 핵심 기술인 ‘MCP(Model Context Protocol)’는 AI 어시스턴트가 데이터가 있는 다양한 시스템에 연결할 수 있도록 하는 개방형 표준이다. AI가 콘텐츠 저장소, 비즈니스 도구, 개발 환경 등과 원활하게 소통할 수 있게 해주는 일종의 ‘번역기’ 역할을 한다고 보면 된다. 이를 통해 AI 모델이 더 나은 품질의 응답을 생성할 수 있다. 앤트로픽이 지난해 11월 처음 발표한 MCP는 AI 에이전트가 외부 도구와 상호작용하는 표준화된 방법을 제공해 AI 시스템의 실용성을 크게 향상시키고 있다.
◇ AI는 어떻게 에이전트를 평가할까?
MCPEval의 핵심은 작업 생성, 작업 검증, 모델 평가로 구성된 3단계 워크플로우다. 첫 번째 단계에서는 MCP 서버의 도구 사양을 수집해 Task-LLM이 상세한 작업 지시사항을 자동 생성한다. 두 번째 단계에서는 최첨단 에이전트를 활용해 생성된 작업의 품질을 검증하고 ground truth 궤적을 수집한다. 마지막 단계에서는 다양한 도메인에서 LLM 에이전트의 성능을 심층 분석한다.
연구진은 5개의 실제 도메인에서 MCPEval의 효과를 검증했다. 실험 결과, 이 프레임워크는 도메인별 세밀한 성능 차이를 정확하게 파악할 수 있음을 입증했다. 특히 전통적인 성공과 실패 메트릭을 넘어서 상세한 작업 궤적과 프로토콜 상호작용 데이터를 체계적으로 수집해 에이전트 행동에 대한 가시성을 제공한다.
◇ 작은 모델의 경쟁력 입증, AI 에이전트 개발 새로운 패러다임
가장 주목할 만한 발견 중 하나는 도구가 향상된 작은 모델이 더 크고 자원 집약적인 모델과 비슷한 성능을 보이는 시나리오를 확인한 것이다. 성능 저하 없이도 비용 효율적인 AI 에이전트 배포가 가능함을 시사한다. 실제 비즈니스 환경에서의 AI 도입 비용을 크게 절감할 수 있는 가능성을 보여준다.
세일즈포스는 MCPEval을 오픈소스로 공개해 AI 연구 커뮤니티의 발전에 기여하고 있다. 재현 가능한 연구를 지원하고 표준화된 평가 관행을 촉진해 전체 AI 에이전트 분야의 발전을 가속화할 것으로 기대된다.
MCPEval의 완전 자동화된 특성은 고품질 궤적 데이터를 즉시 활용한 에이전트 모델의 빠른 파인튜닝과 지속적 개선을 가능하게 한다. AI 에이전트가 실제 사용 환경에서 학습하고 발전할 수 있는 기반을 제공한다.
MCPEval의 등장은 AI 에이전트 개발 패러다임의 중요한 전환점을 의미한다. 단순한 성능 측정을 넘어서 에이전트와 플랫폼 간 통신의 정확성을 세분화된 수준에서 분석할 수 있는 능력은 더욱 신뢰할 수 있고 실용적인 AI 에이전트 개발을 가능하게 한다. 특히 세일즈포스와 같은 글로벌 기업이 실제 비즈니스 환경에서 검증된 이러한 기술을 오픈소스로 공개함으로써, AI 에이전트의 상용화와 대중화가 더욱 가속화될 것으로 전망된다.