네이버 추론 AI 성적표 뜯어보니… “알리바바·LG 압도”
하이퍼클로바 X 씽크 vs 글로벌 추론 AI 모델 성적 한국어 능력은 네이버가 압도… 수학·코딩은 살짝 아쉽
네이버가 최근 출시한 추론 인공지능(AI) ‘하이퍼클로바 X 씽크(HyperCLOVA X THINK)의 성적표가 공개됐다. 글로벌 주요 AI 모델들과의 경쟁한 성적표다. 그 결과 알리바바의 큐웬(Qwen) 시리즈, LG AI연구원의 엑사원 딥(EXAONE Deep) 등보다 높은 성적을 기록한 것으로 확인됐다.
◇ 한국어 과목에서는 ’올 A+‘... 경쟁사들과 확연한 차이
네이버가 30일 공개한 기술 보고서 속 한국어 성적표는 역시 하이퍼클로바 X 씽크가 1등이었다.
가장 압도적이었던 과목은 ’KoBALT-700‘이었다. 서울대 언어학과가 출제한 이 고난도 한국어 시험에서 하이퍼클로바 X 씽크는 48.9점을 받았다. 반면 알리바바 큐웬3 32B는 41.4점, LG 엑사원은 33.0점에 그쳤다. 무려 16점 차이로 독보적 1위를 기록한 것이다.
한국어 종합 이해력을 평가하는 KMMLU에서도 비슷한 결과가 나왔다. 하이퍼클로바 X 씽크 69.7점, 큐웬3 32B 63.5점, 엑사원 딥 53.6점으로 10점 이상의 격*를 보였다. 대학수학능력시험을 모방한 CSAT에서는 83.2점으로 EXAONE(69.7점)을 13점 차로 앞섰고, 큐웬3와는 비슷한 수준이었다.
문화와 역사 이해도를 측정하는 시험들에서는 격차가 더욱 벌어졌다. HAERAE에서 87.8점(다른 모델들은 74~76점), CLIcK에서 80.1점(엑사원 62.2점, 큐웬3 71.1점)을 기록하며 한국 문화에 대한 깊이 있는 이해에서 독보적임을 입증했다.
흥미롭게도 알리바바의 수학 특화 모델인 QwQ 32B도 한국어 영역에서는 하이퍼클로바 X 씽크를 넘지 못했다. QwQ는 수학에서는 98점을 받았지만, KoBALT-700에서는 32.4점으로 네이버 모델의 절반 수준에 그쳤다.
◇ 수학·코딩은 아쉽지만, 훈련 효율성으로 만회
반면 수학과 코딩 과목에서는 아쉬운 결과를 보였다. 수학 최고난도 시험인 MATH500에서 하이퍼클로바 X 씽크는 95.2점을 받았다. QwQ(98.0점), 큐웬3 32B(97.2점)에게 밀렸다. 코딩 시험인 HumanEval에서도 95.7점으로 큐웬3 32B(96.9점)보다 다소 낮았다.
하지만 훈련 효율성에서는 압도적 우위를 보였다. 네이버에 따르면 하이퍼클로바 X 씽크는 경쟁 모델들 대비 현저히 적은 그래픽처리장치(GPU)로 훈련됐음에도 이 같은 성능을 달성했다. 이는 네이버가 독자 개발한 ’Peri-LN‘ 기법과 고품질 데이터 전략의 성과로, 해당 기법은 세계 최고 권위 AI 학회인 ICML 2025에도 채택됐다.
◇ “한국어만큼은 세계 최고”... 소버린 AI의 가능성 입증
이번 성적표가 주는 메시지는 명확하다. 글로벌 빅테크들이 만든 AI도 한국어와 한국 문화 영역에서는 국산 기술을 따라잡지 못한다는 것이다.
업계 전문가들은 “수학이나 코딩은 언어에 상관없이 공통적인 영역이지만, 실제 한국 사용자들이 AI를 활용하는 대부분 상황에서는 한국어 이해와 문화적 맥락이 훨씬 중요하다”고 분석했다.
네이버는 이 모델을 오픈소스로도 공개할 예정이라고 밝혔다. 한 AI 연구자는 “이번 결과는 주권 AI의 중요성을 보여주는 대표 사례”라며 “챗GPT o1 등 글로벌 추론 모델과의 경쟁에서도 한국어 영역만큼은 독보적 위치를 유지할 수 있을 것”으로 전망했다.
또 다른 AI 관계자는 “LG AI연구원은 7월부터 AI 모델을 선보일 예정”이라며 “LG가 다시 네이버보다 성적을 이길 수 있을 것”으로 전망했다. 이어 “한국 대표 두 AI 기업의 경쟁은 한국 AI 발전을 견인할 것”이라고 말했다.