“역시는 역시”… GPT-5, 공개 직후 AI 성능 평가 1위

GPT-5, AI 성능 평가 1위로 강력한 출발 시작 韓 AI, 글로벌 성과로 급성장… ‘엑사원 4.0’과 ‘솔라 프로 2’ 글로벌과 격차 좁히는 한국, 독자 파운데이션 프로젝트 기회

2025-08-08 김동원 기자

7일 공개된 Artificial Analysis Intelligence Index 순위. /Artificial Analysis 사이트 캡처

오픈AI가 공개한 GPT-5가 세계에서 가장 권위 있는 AI 성능 평가 지표 중 하나인 ‘인공지능 분석 지능 지수(Artificial Analysis Intelligence Index)’에서 1위를 기록했다. 7일(현지시간) 발표된 지표에서 69점을 기록하며 기존 1위였던 그록(Grok) 4를 1점차로 누르며 선두에 섰다. 이번에 공개한 GPT-5의 높은 성능을 증명하는 사례다.

이번 평가엔 한국 AI 모델도 포함됐다. LG AI연구원의 엑사원 4.0(EXAONE 4.0)과 업스테이지 솔라 프로2(Solar Pro 2)다. 엑사원 4.0은 51점으로 16위에 오르며 글로벌 중위권에 자리했고, 업스테이지의 솔라 프로 2(Solar Pro 2)도 43점으로 20위를 기록며 한국 AI 기술이 세계 수준에 빠르게 근접하고 있음을 증명했다.

◇ 인공지능 분석 지능 지수의 의미

이 지수는 영국의 독립 AI 분석 기관인 ‘ 아티피셜 어낼리시스(Artificial Analysis)’가 개발한 종합 AI 성능 평가 지표다. 기존의 단순한 정답률 측정을 넘어서 AI가 실제로 얼마나 ‘똑똑한지’를 종합적으로 판단하는 새로운 기준으로 주목받고 있다.

이 평가가 특별한 이유는 AI를 마치 학생처럼 8개의 다양한 과목에서 시험을 치르게 한다는 점이다. 대규모 다분야 언어 이해(MMLU-Pro)는 여러 학문 분야의 지식을 묻는 종합시험이고, 과학 지식 추론(GPQA Diamond)은 과학 문제 해결 능력을 본다. 인간 수준 종합시험(Humanity's Last Exam)은 말 그대로 인간도 어려워하는 최고 난이도 시험이다.

실무 능력도 철저히 검증한다. 실시간 코딩(LiveCodeBench)에서는 프로그래밍 실력을, 과학 계산(SciCode)에서는 복잡한 과학 연산 능력을 평가한다. 수학 경시대회(AIME)는 고난도 수학 문제 해결력을, 지시 따르기(IFBench)는 사용자 명령을 얼마나 정확히 이해하고 수행하는지를 본다. 마지막으로 장문맥 추론(AA-LCR)은 긴 문서를 읽고 논리적으로 추론하는 능력을 측정한다.

이 평가는 실제 사용 환경과 똑같은 조건에서 이뤄진다. ‘제로샷 명령어 프롬프트(zero-shot instruction prompt)’ 방식을 사용하는데, AI에 미리 예시나 힌트를 주지 않고 바로 문제를 던지는 방식이라고 볼 수 있다. 처음 보는 시험 문제를 풀게 한다고 보면 된다.

평가의 정확도도 높다고 평가된다. 95% 신뢰구간에서 오차가 ±1% 미만을 자랑한다. 같은 테스트를 100번 해도 거의 같은 결과가 나온다는 의미다.

◇ 출시하자마자 1위, GPT-5의 위용

오픈AI의 GPT-5는 모델 공개와 함께 단숨에 1위를 기록했다. GPT-5의 영향력을 보여준 사례다.

GPT-5가 기존 AI 모델들과 가장 다른 점은 사용자가 AI의 ‘생각하는 정도’를 조절할 수 있다는 것이다. 마치 자동차의 연비 모드처럼 최고(High), 보통(Medium), 절약(Low), 극절약(Minimal) 네 가지 중에서 선택할 수 있다. 복잡한 문제는 최고 모드로 깊게 생각하고, 간단한 질문은 절약 모드로 빠르고 저렴하게 처리하는 식이다. 각 모드의 성능은 최고 69점, 보통 68점, 절약 64점, 극절약 44점으로 나타났다.

비용 효율성도 높다. 같은 테스트를 완료하는데 최고 모드는 8200만 개의 토큰(AI가 처리하는 단위)을 썼지만, 극절약 모드는 350만 개만 사용했다. 무려 23배 차이다. 이전 GPT-4.1과 비슷한 성능을 내면서도 훨씬 적은 비용이 드는 셈이다. 일례로 간단한 번역이나 요약은 극절약 모드로, 복잡한 코딩이나 분석은 최고 모드로 사용하면 된다.

다른 AI 모델들과 비교해 보면 경쟁은 치욜한 편이다. 일론 머스크의 그록(Grok) 4는 68점으로 GPT-5와 겨우 1점 차이다. 일부 영역에서는 Grok 4가 오히려 더 앞ㅅㅆ다. 과학 문제 풀이에서는 88%로 역대 최고 기록을 세웠고, 어려운 종합 시험에서도 24%로 1위를 차지했다.

구글의 제미나이 2.5 프로(Gemini 2.5 Pro)는 전체 점수는 65점으로 낮지만, 한 번에 처리할 수 있는 문서량이 압도적으로 많다. 책 한 권 분량의 긴 문서도 한 번에 읽고 분석할 수 있어서, 대용량 자료 처리에서는 GPT-5나 Grok 4보다 유리하다고 평가된다.

AI 모델 성능과 출시 시기 비교. GPT-5(High)가 69점으로 최고 성능을 기록했으며, 한국의 엑사원 4.0(EXAONE)과 솔라 프로 2(Solar Pro 2)가 각각 51점, 43점으로 선전했다. /Artificial Analysis 사이트 캡처

속도는 각각 장단점이 있다. Grok 4는 1초에 75개 단어, 제미나이는 142개 단어를 생성할 수 있다. GPT-5는 정확한 속도가 공개되지 않았지만, 깊게 생각하는 최고 모드일수록 답변이 느려질 것으로 예상된다. 마치 어려운 문제를 오래 고민하는 것과 비슷한 이치다.

AI 전문가들은 GPT-5의 진짜 혁신이 점수 향상보다는 선택권 제공에 있다고 본다. 하나의 AI로 상황에 맞는 최적의 성능을 고를 수 있게 됐다는 것을 높게 평가한다. 하지만 예전 GPT-3에서 GPT-4로 넘어갈 때처럼 극적인 발전은 아니라는 평가도 있다. AI 기술이 이제 조금씩 개선되는 단계에 들어섰다는 의미로도 해석된다.

◇ 추격자에서 선도자로… 글로벌과 대등한 경쟁하는 韓 AI

이번 AI 성능 평가에서 가장 놀라운 결과는 한국이 만든 AI 모델들이 예상보다 훨씬 좋은 성과를 거뒀다는 점이다. LG AI연구원이 개발한 엑사원 4.0 32B 추론형(EXAONE 4.0 32B Reasoning)이 51점으로 16위에 올랐다. 이는 전 세계 AI 모델 중 중위권에 해당하는 성과로, 클로드 4(Claude 4)나 딥시크 R1(DeepSeek R1) 같은 세계적으로 유명한 AI들과 비교해도 뒤지지 않는 수준이다.

업스테이지에서 만든 솔라 프로 2 추론형(Solar Pro 2 Reasoning)도 43점으로 20위를 차지했다. 비록 최상위권은 아니지만, 한국의 AI 기술이 세계 수준에 빠르게 따라가고 있다는 것을 보여주는 의미 있는 결과다.

이런 성과는 한국이 AI 주도권을 쥘 수 있다는 가능성을 보여주는 사례다. 특히 미국, 중국 등 AI 강대국들과 기술 격차가 크지 않다는 점을 증명했다. 1위인 GPT-5와 엑사원 4.0의 점수 차이는 18점이지만, 실제로 일상에서 사용할 때는 이 차이를 크게 느끼지 못할 수도 있다. 마치 100점짜리 시험에서 90점과 72점의 차이처럼, 둘 다 충분히 실용적이라는 뜻이다.

또한 한국 AI 기업들이 세계 무대에서 충분히 경쟁할 수 있다는 증거이기도 하다. 몇 년 전만 해도 한국은 AI 분야에서 뒤처진다는 평가가 많았지만, 이제는 당당히 글로벌 경쟁에 참여하고 있다. 특히 엑사원(EXAONE)은 한국어를 다루거나 한국 상황에 특화된 업무에서는 GPT-5보다 더 좋은 성능을 보일 가능성이 높다. 지금의 평가는 주로 영어로 이뤄지기 때문에, 한국어가 중요한 실제 업무에서는 결과가 달라질 수 있기 때문이다.

국내 AI 스타트업 대표는 “한국 AI 모델들이 세계 평가에서 중간 정도 순위에 오른 것은 매우 고무적”이라며 “순위에 이름을 올린 기업은 모두 ‘독자 AI 파운데이션 모델 프로젝트’에 이름을 올렸기 때문에 향후 높은 지원을 받으면 상위권 진입도 충분히 가능하다”고 전망했다.