제로에서 출발한 한국 ‘비전 AI’ 역습
슈퍼브에이아이, 비전 파운데이션 모델 ‘ZERO’ 공개 프롬프트 하나로 제조·물류·건설 전 분야 즉시 적용
“공장에서 용접할 때 스파크가 튀나요?”
이 한 줄의 질문만으로 AI가 즉시 현장을 분석하기 시작한다. 별도 학습이나 프로그래밍 없이 말이다. 24일 슈퍼브에이아이가 공개한 산업용 비전 파운데이션 모델 ‘제로(ZERO)’가 보여준 장면이다.
한국에서도 비전 AI 분야에 파운데이션 모델 시대가 열렸다. 챗GPT가 언어 AI에 가져온 변화를 이제 산업 현장의 ‘눈’ 역할을 하는 비전 AI에서도 경험할 수 있게 된 것이다.
◇ “매번 재학습” 20년 족쇄 끊어낸 기술 혁신
비전 AI는 지금까지 근본적인 한계에 갇혀 있었다. 새로운 제품이나 공정이 도입될 때마다 데이터를 수집하고 라벨링해서 AI를 처음부터 다시 학습시켜야 했다. 딥러닝이 등장한 지 12년, 이 방식은 단 한 번도 바뀐 적이 없었다.
차문수 슈퍼브에이아이 최고기술책임자(CTO)는 “강아지와 고양이를 학습한 AI에게 얼룩말 사진을 보여주면 인식하지 못하는 것처럼, 기존 비전 AI는 학습되지 않은 새로운 상황을 전혀 처리할 수 없었다”고 설명했다.
이런 ‘클로즈드 월드’ 문제 때문에 과거 오픈소스 이상탐지 기술로 우후죽순 생겨났던 비전 AI 기업들이 대부분 사라졌다. 하나의 AI 모델 개발에 3~6개월씩 걸리고, 산업 현장에서는 수십 개의 서로 다른 모델을 운영해야 하는 복잡성이 감당하기 어려운 수준이었다.
제로는 이런 구조적 문제를 파운데이션 모델 기술로 해결했다. 방대한 산업용 데이터로 사전 학습된 범용 모델이기 때문에 텍스트나 이미지 프롬프트만으로 즉시 새로운 작업을 수행한다.
제로의 혁신성은 실제 적용 사례에서 드러난다. 제조 현장에서 나사 이미지 한 장만 AI에게 보여주면, 공장 전체에서 동일한 나사들을 찾아내 개수를 세고 결함까지 자동으로 확인한다. 별도 학습이나 프로그래밍 과정은 들어가지 않는다.
리테일 현장에서는 매대에 진열된 상품들을 즉시 인식해 재고를 파악한다. 신제품이 나오거나 포장이 바뀌어도 문제없다. 기존처럼 새로운 상품마다 데이터를 수집하고 AI를 재학습시킬 필요가 없어진 것이다.
김종회 최고비즈니스책임자(CBO)는 시연을 통해 “보안 관제 현장에서 50개 CCTV 화면을 동시에 분석해 원하는 객체를 실시간으로 추적하고, 상황에 대한 질문에도 즉시 답변한다”며 “하나의 엔진으로 제조, 리테일, 보안 등 모든 분야에 적용 가능하다”고 강조했다.
◇ 슈퍼브에이아이 ‘제로’의 비결
제로가 이런 혁신을 가능하게 한 배경에는 4가지 핵심 기술이 있다. 먼저 ‘제로샷(Zero-shot)’이다. 이를 토대로 학습하지 않은 새로운 객체도 즉시 인식한다. ‘오픈월드(Open World)’ 시스템으로 정해진 카테고리가 아닌 자연어로 사물을 찾을 수 있다.
‘멀티모달 프롬프트’는 텍스트와 이미지를 동시에 처리하는 기능이다. 반도체나 디스플레이 결함처럼 일반 언어로 설명하기 어려운 경우 결함 이미지를 보여주기만 하면 동일한 유형의 불량을 자동으로 찾아낸다.
‘멀티태스크’ 지원도 있다. 하나의 모델이 객체 탐지, 추적, 인식, 질문답변 등을 모두 수행한다. 산업 현장에서 100개가 넘는 서로 다른 AI 모델이 필요했던 작업들을 단일 모델로 처리하는 셈이다.
제로가 기존 범용 파운데이션 모델과 차별화되는 지점은 산업 특화에 있다. 대부분의 비전 파운데이션 모델이 웹상의 일반 이미지로 학습되는 반면, 제로는 웹 데이터, AI허브 데이터, 자체 구축한 산업용 데이터를 종합 활용했다.
차 CTO는 “산업 현장에서 일어나는 일들은 각 기업의 고유 IP이자 보안이 중요한 데이터라 인터넷에 공개되지 않는다”며 “우리는 37개 산업 분야에서 200개 넘는 탐지 대상과 15만 건 넘는 데이터로 산업용 벤치마크를 직접 구축했다”고 설명했다.
◇ 제조 강국의 새로운 기회
제로의 성능은 객관적으로 입증됐다. 자체 구축한 산업용 벤치마크에서 구글 OWLv2, 마이크로소프트 Florence-2, 중국 다이노X 등 글로벌 경쟁 모델들을 48% 차이로 압도했다. 세계 최고 AI 학회인 CVPR 2025 챌린지에서도 2위와 4위를 기록했다.
더 놀라운 것은 개발 효율성이다. 경쟁사들이 엔비디아 A100 GPU 64~128장으로 개발한 모델을 단 8장으로 능가했다. 중국 다이노X가 1억 장의 데이터로 학습한 반면, 슈퍼브에이아이는 자체 MLOps 기술로 1억 장에서 90만 장을 선별해 학습했다. 100분의 1로 압축한 데이터로 오히려 더 높은 성능을 달성한 것이다.
차 CTO는 “GPU를 많이 확보하지 못한 한국에서도 파운데이션 모델을 만들 수 있다는 것을 증명했다”며 “데이터를 보는 능력과 선별 기술이 핵심”이라고 강조했다.
제로는 원빌리언 파라미터 이하의 경량 모델로 설계됐다. 일반적인 비전 파운데이션 모델이 3~8빌리언 파라미터를 갖는 것과 비교하면 훨씬 가볍다. 이는 산업 현장의 현실을 반영한 설계다. 고가의 GPU를 설치하기 어려운 공장이나 건설 현장에서도 엣지 디바이스나 MPU에 배포해 기존 PLC 시스템과 API로 연동할 수 있다.
김현수 슈퍼브에이아이 대표는 제조강국 한국의 새로운 기회를 강조했다. “LLM 분야는 방어적 성격이 강하지만, 비전 AI는 우리가 세계를 공략할 수 있는 공격적 기술”이라고 말했다.
실제로 LLM은 웹상의 텍스트 데이터가 풍부하지만, 산업용 영상 데이터는 각 기업의 핵심 IP로 공개되지 않는다. 반도체, 조선, 자동차 등 세계 최고 수준의 제조업 인프라를 갖춘 한국이 오히려 유리한 구조다.
김 대표는 “중국이 앞서 나가고 있는 산업용 영상 AI 분야에서 한국이 세계 1위가 될 수 있다”며 “우리나라 같은 산업 기반을 갖춘 국가에서만 진정한 산업용 비전 파운데이션 모델을 만들 수 있다”고 자신했다.
◇ 비전 분야에서 시작되는 AI 민주화 생태계
슈퍼브에이아이는 제로로 AI 시장 자체를 바꾸겠다는 계획을 공개했다. 김 CBO는 “기존 20조 원 규모의 글로벌 컴퓨터 비전 시장을 200조 원으로 확장할 것”이라고 전망했다.
이는 단순한 호언장담이 아니다. 글로벌 영상 관제 시장만 100조 원, 스마트팩토리 시장은 290조 원에 달한다. 여기에 리테일, 물류, 의료 등 시각적 데이터를 활용하는 모든 산업까지 더하면 잠재 시장은 상상을 초월한다.
핵심은 진입 장벽 파괴다. 김 CBO는 “기존에는 AI 전문가와 높은 비용을 감당할 수 있는 기업만 비전 AI를 쓸 수 있었지만, 제로로 이 벽을 허물어 모든 기업이 참여할 수 있는 시장을 만들겠다”는 설명이다.
이를 위해 슈퍼브에이아이는 제로 중심의 풀스택 생태계를 구축한다. 하드웨어부터 MLOps 플랫폼, 비전 파운데이션 모델, 버티컬 솔루션까지 한 번에 제공하는 전략이다.
궁극적 목표는 ‘AI 민주화’다. 김 대표는 “코딩을 모르는 의사가 의료용 AI를 만들고, 유통 전문가가 자신만의 리테일 AI를 개발하는 시대를 열겠다”며 “전문가의 지식이 곧바로 AI가 되는 세상을 만들 것”이라고 강조했다.
슈퍼브에이아이는 이미 다양한 산업에서 검증받고 있다. 기존 영상 관제 솔루션은 국내 프로야구 경기장, 전력발전소, 지자체, 공항 등에 도입됐고, 해외에서는 일본 도요타가 MLOps 플랫폼을 이용해 제조 AI를 개발하고 있다. 제로는 AWS 등 글로벌 플랫폼을 통한 본격 공급도 예정돼 있다. 김 CBO는 “AWS 마켓플레이스를 통해 제로 서비스를 이용할 수 있다”며 “장기적으로 아마존베드록 등에도 제로를 탑재할 것”이라고 밝혔다.