엔비디아, NIM 마이크로서비스에서 ‘딥시크-R1’ 제공

단일 엔비디아 HGX H200 시스템에서 초당 최대 3872개 토큰 전송

2025-02-04 김동원 기자

엔비디아가 ‘딥시크-R1’을 NIM 마이크로서비스에서 프리뷰로 제공한다. /엔비디아

엔비디아가 중국 인공지능(AI) 스타트업 딥시크가 개발한 ‘딥시크-R1’을 NIM 마이크로서비스에서 프리뷰로 제공한다. R1 NIM 마이크로서비스는 단일 엔비디아 HGX H200 시스템에서 초당 최대 3872개의 토큰을 전송할 수 있다고 밝혔다.

엔비디아는 3일(현지시각) 자사 블로그에서 NIM에서 딥시크-R1을 지원한다고 밝혔다. NIM 마이크로서비스는 기업이 생성형 AI 애플리케이션의 안전성, 정확성, 확장성을 개선할 수 있도록 돕는 휴대용 최적화 추론 마이크로서비스다.

엔비디아는 딥시크-R1의 경우 최신 추론 기능을 갖춘 오픈모델이라고 소개했다. 또 딥시크-R1과 같은 추론 모델은 직접적인 답변을 제공하는 대신 쿼리에 대해 여러 번의 추론 패스(Inference Passes)를 수행해 연쇄 사고, 합의, 검색 방법을 거쳐 최상의 답변을 생성할 수 있다고 했다. 이러한 일련의 추론 패스를 수행해 최적의 답변에 도달하기 위해 추론을 사용하는 것을 테스트 타임 스케일링(Test-Time Scaling)이라고 한다. 엔비디아는 “딥시크-R1은 이 스케일링 법칙의 완벽한 예”라며 “에이전틱 AI(Agentic AI) 추론의 요구 사항에서 가속 컴퓨팅이 왜 중요한지 보여준 사례”라고 밝혔다.

딥시크-R1의 경우 여러 개의 전문 모델(Expert Models)을 조합해 최적의 결과를 얻는 MoE(Mixture of Experts)를 이용해 만들어졌다. 오픈소스로 공개된 다른 대형언어모델(LLM)보다 10배 많은 6710억 개 파라미터를 통합해 12만8000개 토큰이라는 거대한 인풋 컨텍스트 길이를 지원한다.

엔비디아는 딥시크-R1과 같은 추론 모델에서 실시간 추론과 고품질 응답을 모두 구현하려면 테스트 타임 컴퓨팅이 중요해 더 큰 규모의 추론 배포가 필요하다고 설명했다. 모델이 문제를 반복적으로 ‘사고’할 수 있게 되면 더 많은 출력 토큰과 더 긴 생성 주기가 생성되므로 모델 품질을 지속 확장할 수 있어서다.

엔비디아에 따르면, R1에서 실시간 답변을 제공하려면 추론을 위해 모든 전문가에게 신속한 토큰을 라우팅하기 위해 높은 대역폭과 짧은 지연 시간의 통신으로 연결된 높은 컴퓨팅 성능을 갖춘 많은 그래픽처리장치(GPU)가 필요하다. 엔비디아 NIM 마이크로서비스에서 제공되는 소프트웨어 최적화와 결합해 NV링크(NVLink)와 NV링크 스위치(Switch)를 사용해 연결된 8개의 H200 GPU가 장착된 단일 서버는 초당 최대 3872개의 토큰으로 6710억 개의 파라미터로 구성된 전체 딥시크-R1 모델을 실행할 수 있다. 이러한 처리량은 모든 레이어에서 엔비디아 호퍼(Hopper) 아키텍처의 FP8 트랜스포머 엔진과 MoE 전문가 통신을 위한 900GB/s의 NV링크 대역폭을 사용함으로써 가능하다.

엔비디아 측은 “개발자가 딥시크-R1을 토대로 전문 에이전트를 구축할 수 있도록 엔비디아 NIM 마이크로서비스 프리뷰로 제공하고 있다”면서 “R1의 경우 논리적 추론, 사고, 수학, 코딩, 언어 이해 등이 필요한 작업에 대해 최고의 정확도를 제공하는 동시에 높은 추론 효율성을 제공해 에이전트 구축에 용이하다”고 설명했다.