이재욱 서울대 AI 연구원장 “스케일링 법칙 2030년까지 지속될 것”
“학습보다 추론 위한 컴퓨팅 비중 늘 것” 연산 6만 배·메모리 100배 늘어… 병목 심화 “AI, 새로운 패러다임 준비도 필요”
대형언어모델(LLM)의 발전을 이끌었던 스케일링 법칙이 앞으로 4~5년간은 지속될 것이라는 전망이 나왔다. 이재욱 서울대 AI연구원장은 18일 양재 엘타워에서 개최된 AIIA 조찬포럼에서 “인공지능(AI) 모델 향상을 이끌었던 스케일링 법칙은 앞으로 4~5년은 계속될 것”이라고 주장했다.
이재욱 원장은 지난 9월 1일 장병탁 원장의 임기가 끝나고 서울대 AI연구원장으로 취임했다. 컴파일러와 하드웨어 아키텍처, 운영체제 분야를 연구해 온 그는 AI 인프라 전문가로 2017년 국내 메모리 회사와 트랜스포머 아키텍처 공동연구를 통해 셀프 어텐션(Self-Attention) 하드웨어 가속기 칩을 개발했다. 2023년에는 구글 딥마인드 방문연구원으로 활동하면서 구글의 생성형 AI 서비스 구축 과정을 도왔다.
스케일링 법칙은 AI 모델에 더 많은 데이터를 투입하고 연산량이 늘어나면 모델의 성능이 지속적으로 좋아진다는 법칙이다. 현재까지의 AI 모델의 발전은 스케일링 법칙에 따른다. 알고리즘 자체 원리는 변하지 않고 데이터와 컴퓨팅 파워만 늘린 채로 단순히 크기만 키웠는데 성능이 좋아진 것이다. 챗GPT, 클로드, 제미나이 등 주요 AI 모델 모두 2017년 구글이 개발한 ‘트랜스포머’라는 동일한 기본 알고리즘 구조를 바탕으로 한다.
이에 전 세계 국가와 기업이 경쟁적으로 AI 인프라에 막대한 투자를 쏟고 있다. 그는 “매년 프론티어 모델을 개발하는 데 드는 컴퓨테이션 비용이 연간 4~5배씩 증가하고 있다”며 “누가 더 많은 컴퓨테이션과 데이터를 비용 효율적으로 전달할 수 있느냐가 모델 개발의 핵심”이라고 말했다. 이어 “모든 나라와 기업이 경쟁적으로 인프라에 막대한 투자를 쏟고 있는 이유” 라고 강조했다.
기존의 소프트웨어도 AI로 전환되고 있다. 이 원장은 “예전 CPU 기반의 전통적인 온라인 서비스들이 전부 인텔리전트하게 바뀌고 있다”며 “오피스 365는 슬라이드를 자동으로 만들어주고, 구글 독스는 제미나이가 텍스트를 교정해주는 등 모든 서비스형 소프트웨어(SaaS)에 AI가 탑재되고 있다”고 설명했다. 그는 “기존 SaaS에 비해 엄청나게 많은 메모리와 스토리지를 요구한다”며 “앞으로 AI 인프라 수요가 폭발적으로 증가할 것”이라고 전망했다.
AI 인프라 패권 경쟁을 잘 보여주는 것이 미국과 중국 간의 반도체 전쟁이다. 2021년 4월 중국이 공격적으로 컴퓨팅 용량을 확대해 전 세계의 45%를 차지하며 미국(34%)을 추월한 적이 있었다. 이에 미국은 칩스법을 통해 자국 내 반도체 생산을 대폭 확대하는 한편 중국에 강력한 반도체 수출 통제 조치를 시행했다. 엔비디아의 고성능 AI 칩도 중국 수출을 전면 금지했고 첨단 반도체 제조 장비 수출도 막았다. 그는 “미국이 전 세계 AI 연산 능력의 약 75%를 차지하고 중국이 15%로 격차가 크게 벌어졌다”고 설명했다.
우리나라도 지난달 경주에서 개최된 아시아태평양경제협력체(APEC) CEO 서밋 참가를 위해 젠슨 황 엔비디아 CEO가 방한한 것을 계기로 엔비디아 GPU 26만 장을 확보했다. 이에 한국의 AI GPU 보유량은 기존 6만 5000장에서 30만 장 이상으로 약 5배 증가하게 됐다.
하지만 이러한 스케일링 법칙이 언제까지 유효할지에 대해서는 업계 안팎에서 논란이 있었다. AI를 학습시킬 수 있는 데이터의 양은 한계가 있고, GPU 같은 컴퓨팅 장비를 무한정 늘려도 한계에 부딪힐 수밖에 없다는 것이다. 이에 전문가들은 언제 스케일링 법칙이 끝날까를 예측해 왔다.
오픈AI도 현재 스케일링 기반 발전의 패러다임이 지속될 것이라고 내다봤다. 그는 “최근 오픈AI의 CTO를 만나 이야기를 나눴는데 적어도 2029~2030년까지는 이 패러다임으로 모델 성능을 개선할 수 있을 것으로 본다고 했다”며 “다만 학습보다는 추론 단계의 비중이 높아질 것”이라는 전망을 덧붙였다.
이는 오픈AI가 최근 공개한 ‘o3’ 모델의 방향성과도 일치한다. o3는 기존처럼 모델 크기만 키우는 대신 추론 시점에 더 많은 연산을 투입해 ‘생각하는 시간’을 늘리는 방식으로 성능을 향상시켰다. 이른바 ‘테스트 타임 스케일링’이라는 새로운 접근법이다.
◇ “GPU보다 메모리가 성능 키워야”
하지만 이 원장은 단순히 GPU 수를 늘리는 것만으로는 부족하다고 지적했다. AI 인프라에서 메모리 병목 문제가 발생하고 있기 때문이다. 그는 “지난 20년간 하드웨어 연산량은 6만 배 증가했지만 메모리 대역폭은 고작 100배 증가했다”며 “메모리를 읽고 쓰는 속도가 전체 성능의 병목이 되는 ‘메모리 월’ 현상이 심화하고 있다”고 설명했다. 이어 “대역폭 문제와 함께 용량 문제도 심각하다”며 “트랜스포머 모델의 파라미터 크기는 410배 이상 증가했는데, GPU 메모리 용량은 2배 정도만 늘어났다”고 언급했다.
실제로 엔비디아 GPU의 경우 연산량 대비 메모리 대역폭 비율이 볼타 세대에서는 139였지만, 최신 블랙웰 세대에서는 281로 2배 이상 벌어졌다. 이는 메모리 병목이 갈수록 심화되고 있음을 보여준다.
예전에는 엔비디아 GPU에 HBM(고대역폭 메모리)이 차지하는 비중이 30%였지만, 최신 블랙웰에서는 50% 이상으로 두 배 이상 늘어났다. 이 원장은 “돈은 엔비디아가 벌고 있지만 국내 기업들이 엔비디아에 납품하는 HBM가 실제 GPU 비중의 절반 이상을 차지한다고 봐야 한다”고 했다.
이 원장은 장기적 관점에서 새로운 패러다임 준비의 필요성도 강조했다. “트랜스포머를 대체할 만한 유망한 후보가 아직 보이지 않는다”면서 “어차피 몇 년 후에는 현재 패러다임이 한계에 봉착할 것이기 때문에 다음을 준비해야 한다”고 강조했다.
한편 이번 포럼은 한국인공지능산업협회와 지능정보기술포럼이 주최했다.