임의철 SK하이닉스 부사장 “GPU 성능 99% 낭비하는 AI 병목, 메모리로 해결”
최고급 GPU도 AI 앞에선 0.3% 활용, 메모리-프로세서 속도차 400배 메모리 안에서 직접 연산하는 ‘PIM’ 상용화… 14배 성능향상 달성 ‘생각하는 메모리’ AiMX 카드로 라마3 70B 모델 실제 구동 성공
챗GPT나 클로드 같은 인공지능(AI) 챗봇을 사용할 때 답변이 한 글자씩 천천히 나타나는 이유가 있다. 아무리 비싼 컴퓨터를 써도 실제 성능의 0.3%밖에 활용하지 못하는 근본적인 한계 때문이다. SK하이닉스가 이런 AI 서비스의 고질적 문제를 해결할 수 있는 메모리 기술을 실제 칩으로 구현해 상용화 단계에 진입했다고 발표했다.
임의철 SK하이닉스 부사장은 19일 서울 코엑스에서 열린 ‘제2회 상생포럼(Deep Tech Convergence Networking Day)’에서 현재 고성능 그래픽처리장치(GPU)로도 AI 응답 생성에 6초 정도가 걸리는 문제를 PIM(Processing-in-Memory) 기술로 해결할 수 있다고 밝혔다. 이 기술은 이미 실제 칩으로 제작돼 검증을 마쳤으며, AI 서비스 속도를 14배 높이면서 전력 소모는 100분의 1로 줄일 수 있다고 설명했다.
◇ AI가 ‘거북이’ 되는 이유, 메모리와 프로세서의 속도 차이
일반 사용자들이 체감하는 AI 서비스의 답답함은 컴퓨터 구조상 피할 수 없는 문제에서 비롯된다. 컴퓨터는 크게 ‘생각하는’ 프로세서와 ‘기억하는’ 메모리로 구성되는데, 프로세서가 발전하는 속도가 메모리보다 훨씬 빨라 현재 100배에서 400배까지 성능 격차가 벌어졌다.
이를 일상에 비유하면 다음과 같다. 아무리 머리가 좋은 학생(프로세서)이라도 책장(메모리)에서 자료를 찾아오는 속도가 느리면 문제를 푸는 전체 시간이 길어질 수밖에 없다. AI도 마찬가지다. 질문에 답하려면 350GB에 달하는 거대한 ‘지식 창고’에서 정보를 꺼내와야 하는데, 이 과정이 극도로 느리다.
챗GPT 같은 대화형 AI는 단어를 하나씩 생성할 때마다 전체 지식 창고를 다시 뒤져야 한다. “안녕하세요”라는 간단한 인사말을 만들기 위해서도 ‘안녕’ 다음에 ‘하세요’를 붙이려면 처음부터 다시 350GB 전체를 읽어들여야 하는 식이다. 이 때문에 수십만 원짜리 최신 GPU를 써도 실제로는 그 성능의 0.3%만 활용하게 된다.
임 부사장은 “데이터를 옮기는 데 드는 에너지가 실제 계산보다 100배에서 1000배 더 크다”며 “이는 마치 냉장고에서 재료를 꺼내 요리하는 것보다 냉장고까지 걸어가는 데 더 많은 에너지를 쓰는 것과 같다”고 설명했다.
◇ 메모리가 직접 ‘생각’하는 혁신, 책장에서 답 찾는다
SK하이닉스의 PIM 기술은 이런 구조적 한계를 근본적으로 바꾸는 접근법이다. 기존에는 메모리(책장)에서 데이터(책)를 가져와 별도의 프로세서(책상)에서 계산했다면, PIM 기술은 메모리 자체에 계산 기능을 넣어 ‘책장에서 바로 답을 찾는’ 방식이다.
구체적으로 SK하이닉스는 메모리를 16개 구역으로 나누고 구역마다 간단한 계산 장치를 설치했다. AI가 가장 많이 하는 ‘행렬 곱셈’ 연산을 16곳에서 동시에 처리할 수 있어 속도가 14배 빨라진다. 중요한 것은 데이터를 이동할 필요가 없어 전력 소모가 획기적으로 줄어든다는 점이다.
이는 단순한 아이디어처럼 보이지만 실제 구현은 매우 어렵다. 메모리는 원래 데이터를 저장하는 용도로만 설계됐기 때문에 여기에 계산 기능을 추가하려면 완전히 새로운 설계가 필요하다. SK하이닉스는 이미 2022년 실제 칩으로 제작해 검증을 완료했으며, 현재 ‘AiMX 카드’라는 제품 형태로 라마3 70B 같은 대형 AI 모델을 실제 구동하고 있다.
◇ 책 한 권 통째로 요약하는 시대, 새로운 도전
AI 기술 발전으로 사용자들의 요구도 복잡해지고 있다. 과거에는 “오늘 날씨 어때?”같은 간단한 질문이 대부분이었다면, 최근에는 “이 책 전체를 읽고 요약해 줘”와 같은 복잡한 요청이 늘고 있다. 책 한 권 분량의 텍스트를 입력하면 입력 데이터만 10만 개에서 100만 개 단위로 급증한다.
또한 최근 등장한 ‘추론형 AI’는 답을 내기 전에 내부적으로 복잡한 사고 과정을 거친다. 사람이 어려운 수학 문제를 풀 때 머릿속으로 여러 방법을 시도해보는 것처럼, AI도 여러 가능성을 검토한 후 최종 답안을 제시한다. 이 과정에서 생성되는 ‘중간 생각’까지 포함하면 출력 데이터도 기하급수적으로 늘어난다.
문제는 이런 복잡한 처리 과정에서 ‘어텐션(Attention)’ 연산이 새로운 병목지점으로 부상했다는 것이다. 어텐션은 AI가 긴 문장에서 어떤 부분에 집중해야 할지 결정하는 과정으로, 사용자마다 다른 패턴을 가져 기존 방식으로는 효율화가 어렵다.
SK하이닉스는 이에 대응해 차세대 저전력 DDR 기반 PIM 시스템을 개발 중이다. 카드 한 장당 256GB의 대용량 메모리를 탑재하고 초당 700GB의 데이터 처리 속도를 목표로 하고 있다. 이는 현재 최고급 GPU와 맞먹는 성능을 내면서 전력은 덜 사용한다.
회사는 올해 9월 전시회에서 관람객들이 QR코드로 접속해 실시간으로 PIM 기반 AI 서비스를 체험할 수 있는 시연을 준비 중이다. 임 부사장은 “AI 서비스가 대중화되려면 속도와 비용 문제를 동시에 해결해야 한다”며 “PIM 기술이 그 해답이 될 것”이라고 밝혔다.