최종편집:2025-11-26 07:49 (수)
실시간
[엔비디아 AI 데이 서울] AI 한계 깨는 추론 모델, 컴퓨팅 수요로 이어진다

[엔비디아 AI 데이 서울] AI 한계 깨는 추론 모델, 컴퓨팅 수요로 이어진다

  • 기자명 서재창 기자
  • 입력 2025.11.18 17:03
  • 수정 2025.11.19 15:12
  • 0
  • 본문 글씨 키우기
이 기사를 공유합니다

"수조 개 토큰으로 훈련, 트랜스포머가 라벨 없는 데이터 학습 혁명 이끌어"
GPT-4 훈련, 케플러 5000기가와트→블랙웰 3기가와트...에너지 효율 향상
"AI가 AI 훈련, 보상 모델로 인간 선호도 예측하며 챗GPT 성능 개선"

안키트 파텔(Ankit Patel) 엔비디아 개발자 마케팅 수석 디렉터. /서재창 기자
안키트 파텔(Ankit Patel) 엔비디아 개발자 마케팅 수석 디렉터. /서재창 기자

엔비디아가 18일 열린 ‘엔비디아 AI 데이 서울’에서 AI 스케일링 법칙과 추론 모델의 핵심 원리를 심층 분석했다. 안키트 파텔(Ankit Patel) 엔비디아 개발자 마케팅 수석 디렉터는 발표에서 “컴퓨팅 규모가 확장됨에 따라, AI 성능이 기하급수적으로 향상되는 스케일링 법칙이 AI 혁신의 핵심”이라며 “최신 추론 모델은 스스로 사고하고 검증하는 과정을 거쳐 AI 성능 한계를 지속적으로 확장한다”고 강조했다. 그는 블랙웰 아키텍처가 이전 세대 대비 성능과 에너지 효율을 개선해 토큰 생성과 대규모 AI 연산을 가속화하며, 한국 개발자 생태계가 엔비디아의 오픈소스 모델과 도구를 활용해 혁신적인 애플리케이션을 구축한다”고 밝혔다.

◇ “더 많은 컴퓨팅 파워가 곧 더 높은 지능”

안키트 파텔 디렉터는 AI 모델의 지능이 향상되는 원리를 MMLU(대규모 다중 과제 언어 이해) 벤치마크로 설명했다. 그는 “MMLU는 약 1만5000개의 객관식 질문으로 구성돼 추론과 언어 이해 능력을 평가하는데, 최신 AI 모델들은 이미 인간 전문가의 점수를 뛰어넘고 있다”며 “모든 새로운 모델이 전문가보다 우수한 성능을 보이는 이유는 더 많은 컴퓨팅 파워 때문”이라고 단도직입적으로 밝혔다. 

트랜스포머 아키텍처의 등장이 게임 체인저가 된 배경도 상세히 다뤘다. 안키트 파텔 디렉터는 “트랜스포머 이전 시대인 컴퓨터 비전 분야에서는 라벨링된 데이터에 크게 의존했다”며 “예를 들어 ImageNet 데이터셋은 약 1400만 개의 이미지와 각 이미지에 대한 주석으로 구성돼 있으며, 수백 만에서 수십 억 개의 파라미터를 가진 모델 아키텍처와 결합해 방대한 계산을 수행했다”고 설명했다. 그는 “무작위로 초기화된 모델이 데이터를 처리하고 예측한 라벨을 실제 인간 라벨과 비교해 오차를 계산한 뒤, 역전파를 통해 수많은 파라미터를 반복적으로 조정하면서 학습했다”고 설명했다. 

안키트 파텔 디렉터는 “트랜스포머는 라벨링된 데이터에만 의존하지 않고, 텍스트 같은 비구조화 데이터를 자기지도학습 방식으로 활용할 수 있는 새로운 아키텍처”라고 설명했다. 그는 “AI 연구자들은 텍스트뿐 아니라 코드, 이미지, 행동, 유전체학 데이터까지 토큰으로 표현하는 방법을 개발했으며, 트랜스포머는 첫 번째 토큰을 입력받아 다음 토큰을 예측하고 실제 정답과 비교해 오차를 계산·학습한다”고 설명했다. 그는 “이러한 자기지도학습 방식이 트랜스포머 모델의 혁신이며, 비구조화 데이터 학습을 가능하게 했지만 대가는 엄청난 컴퓨팅 파워”라고 강조했다. 

NVIDIA의 오픈소스 AI 모델 및 라이브러리 성장 추이 그래프. /서재창 기자
엔비디아의 오픈소스 AI 모델 및 라이브러리 성장 추이 그래프. /서재창 기자

◇ 보상 모델 기반 AI가 AI를 훈련하는 시대

사전 훈련만으로는 충분하지 않다는 점도 강조했다. 파텔 디렉터는 “사전 훈련된 모델은 다음 토큰만 예측할 수 있는 기본 모델에 불과하다”며 “챗GPT가 한 일은 기본 모델을 챗봇으로 전환한 것이고, 이를 위해 사후 훈련이 필요하다"고 설명했다. 사후 훈련에는 라벨 데이터를 사용한 지도 학습 파인튜닝이 포함되며, 인터넷 사용법, 질의응답 방식 등 다양한 기술을 학습시키기 위해 여러 단계를 거친다. 

인간 피드백을 통한 강화 학습(RLHF)의 중요성도 부각했다. 파텔 디렉터는 “모델 응답을 채점하는 과정에서 ‘이것은 좋은 답변’, ‘이것은 나쁜 답변’이라고 평가해 인간 선호도 데이터셋을 만든다”며 “이 데이터셋으로 모델을 훈련시키면 수학이나 추론 능력을 향상시킬 수 있다"고 말했다. 더 나아가 AI가 AI를 훈련시키는 방법도 등장했다. 그는 “보상 모델을 훈련시켜 인간이 선호할 것을 예측하게 할 수 있다”며 “챗GPT 사용자들이 가끔 두 개의 프롬프트 중 어느 것이 더 나은지 선택하는 것도 보상 모델 훈련을 위한 데이터 수집 과정”이라고 설명했다.

컴퓨팅 요구량의 기하급수적 증가도 명확히 제시했다. 파텔 디렉터는 “트랜스포머 시대의 컴퓨팅 증가 궤적은 선형 스케일이 아니라 지수 스케일”이라고 강조하면서도 “에너지 효율성은 이미 크게 개선됐다”며 “블랙웰 아키텍처는 이전 세대 대비 훨씬 적은 에너지로 동일한 성능을 달성한다”고 밝혔다.

◇  추론·사고 모델 등장으로 급증하는 컴퓨팅 수요

추론 모델의 등장이 새로운 컴퓨팅 수요를 창출하고 있다. 안키트 파텔 디렉터는 “우리의 목표는 모델을 훈련하는 것이 아니라 사용하는 것”이라며 “추론은 직관적으로 훈련보다 더 큰 워크로드지만, 프롬프트를 입력할 인간의 수에 의해 제한된다”고 설명했다.

하지만 추론 모델 또는 사고 모델(Thinking Model)의 등장으로 상황이 변했다. 파텔 디렉터는 “모델이 응답을 받으면 스스로에게 프롬프트를 주며 질문을 이해하려 하고, 답변을 얻으면 그 답변을 다시 검토해 질문에 제대로 답했는지 확인한다”며 “이는 내가 아이들에게 가르치는 방식과 같지만, 더 많은 컴퓨팅이 필요하다"고 강조했다.

에너지 효율성 개선이 이러한 컴퓨팅 수요 증가를 뒷받침한다. 파텔 디렉터는 “블랙웰 울트라는 GPT-4의 토큰 생성에서 케플러보다 20만 배 더 에너지 효율적”이라며 “자동차에서 이 정도의 연료 효율을 얻을 수 있다면 평생 한 번만 주유하면 될 것”이라고 비유했다. 

저작권자 © THE AI 무단전재 및 재배포 금지
관련기사
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
모바일버전