최종편집:2025-11-26 07:49 (수)
실시간
엔비디아, AI 수학올림피아드 1위… 추론모델로 일반화 성능 입증

엔비디아, AI 수학올림피아드 1위… 추론모델로 일반화 성능 입증

  • 기자명 유덕규 기자
  • 입력 2025.04.17 17:47
  • 0
  • 본문 글씨 키우기
이 기사를 공유합니다
캐글이 진행한 AI 수학올림피아드에 나온 고난도 수학 문제. /엔비디아
캐글이 진행한 AI 수학올림피아드에 나온 고난도 수학 문제. /엔비디아

엔비디아는 AI 수학 올림피아드(AI Mathematical Olympiad)에 참여해 AI 추론 모델의 뛰어난 일반화 성능을 바탕으로 우승을 차지했다고 17일 밝혔다.

엔비디아에 따르면 최근 캐글(Kaggle)은 AI 수학올림피아드를 개최했다. 

엔비디아 팀은 네모스킬즈(NemoSkills)라는 이름으로 대회에 참가했다. 이는 가속화된 LLM 훈련, 평가, 추론을 위한 파이프라인 모음인 네모-스킬즈를 활용한 데서 따온 이름이다.

네모스킬즈 7인의 구성원은 LLM 훈련, 모델 증류, 추론 최적화에 걸쳐 각기 다른 전문 분야에 기여했다.

캐글 챌린지에는 2200개 이상의 팀이 참가했다.

이번 챌린지에 참가한 팀들은 AI 모델을 제출해 수학 문제 50개를 5시간 내에 풀어야 했다. 50문제는 대수학, 기하학, 조합론, 정수론에 걸친 국가 올림피아드 수준의 고난도 문제로 구성됐다.

네모스킬즈의 우승 모델은 연쇄 추론 기능을 갖춘 파운데이션 모델인 큐원2.5-14B-베이스(Qwen2.5-14B-Base)를 사용했다. 

네모스킬즈 팀은 수학 문제에 대해 합성적으로 생성된 수백만 개의 솔루션을 미세 조정했다.

이 합성 솔루션은 주로 딥시크-R1(DeepSeek-R1)과 QwQ-32B라는 두 개의 대형 추론 모델이 생성한 결과로, 이를 지식 증류 방식으로 파운데이션 모델에 학습시켰다. 

그 결과 자연어 추론과 파이썬 코드 실행을 결합해 복잡한 문제를 해결할 수 있는 더 작고, 더 빠른, 긴 사고(long-thinking) 모델이 탄생했다.

성능을 더욱 향상시키기 위해, 팀은 긴 추론 결과들을 병렬로 처리한 뒤 최종 답을 결정하는 방식을 채택했다. 이 과정을 최적화하고 대회의 제한 시간을 맞추기 위해 혁신적인 조기 중단 (early-stopping) 기법도 사용했다.

또한 텐서RT-LLM을 통해 FP8 양자화 압축 방법을 활용해 더 일반적으로 사용되는 FP16 포맷보다 1.5배 빠른 속도를 달성할 수 있었다. 

여기에 애플(Apple)에서 개발한 추측 디코딩 기술인 리드래프터(ReDrafter)를 사용해 속도를 1.8배 더 향상시켰다.

최종 모델은 공개 데이터세트보다 대회에서 공개되지 않은 최종 데이터세트에서 더 나은 성능을 보였다. 

이고르 깃먼 선임 응용 과학자는 “캐글 대회가 아니더라도 우리는 수학용 AI 추론 모델을 개선하기 위해 계속 노력했을 것”이라며 “캐글은 우리 모델이 다른 데이터세트에 얼마나 잘 일반화되는지 벤치마킹하고 발견할 수 있는 기회가 됐다”고 말했다.

한편 엔비디아의 네모스킬즈 팀의 성과는 AI가 단순한 계산을 넘어 복잡한 수학적 추론과 문제 해결 능력을 갖추고 있는 것으로도 풀이된다. 캐글이 내건 수학문제는 조건부 조합과 모듈러 연산, 수 이론이 필요한 문제인 것으로 파악된다. 이 문제를 해결하려면 단순하게 공식을 외우는 것이 아닌 새로운 문제 유형을 논리적으로 추론해 풀이하는 과정이 요구된다. 

저작권자 © THE AI 무단전재 및 재배포 금지
관련기사
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
모바일버전