[창간 5주년 특집] 최종현 서울대 교수 “피지컬 AI 시대, 韓 새로운 기회”
피지컬 AI를 위한 로봇 파운데이션 모델 뚝심 있는 전략적 투자 필요… “절호의 기회”
[편집자 주] 조선미디어그룹이 설립한 인공지능 전문 매체, ‘더에이아이(THE AI)’가 창간 5주년을 맞이했습니다. THE AI는 생성형 AI 열풍이 불기 전부터, AI 가능성과 한계를 탐구하며 깊이 있는 취재와 분석을 이어왔습니다. 이번 5주년 특집에서는 국내외 AI 석학 및 전문가들과의 인터뷰를 통해 AI 기술의 현재와 미래를 조망합니다. AI 혁명의 최전선에 서 있는 여러 전문가의 통찰과 비전을 독자 여러분께 전합니다. 많은 관심과 성원 부탁드립니다.
“로봇 산업에 대해 적극적인 투자와 지원을 했는지 돌아볼 필요가 있습니다.”
최종현 서울대 교수의 말이다. 로봇이 AI 뇌를 가지는 피지컬(Physical AI) AI 시대가 다가오면서 로봇 산업이 다시 부흥하고 있다. 최 교수는 “로봇 산업에 대해 그동안 투자와 지원을 충분히 하지 않았던 것이 피지컬 AI 시대 부메랑처럼 돌아올 수 있다”고 경고하면서 “피지컬 AI 분야는 아직 초기 단계이기 때문에 기술적 주도권을 확보할 수 있는 기회”라고 강조했다.
이어 최 교수는 “반도체, 유기발광다이오드(OLED) 디스플레이처럼 뚝심 있게 리스크를 감수하고 전략적으로 밀어붙여야 피지컬 AI 시대를 선점할 수 있는 기회도 잡을 수 있다”며 “당장 주목받는 기술에만 집중하는 것보다는 리스크를 감수하고 전략적으로 밀어붙이는 것이 필요하다”고 말했다.
최종현 교수는 서울대 전기정보공학부 부교수로 협동과정 인공지능 전공 부주임을 맡고 있고, 기계 인지 및 추론 연구실을 이끌고 있다. 광주과학기술원(GIST) 조교수, 연세대 부교수를 거쳐 현재는 서울대 전기·정보공학부 교수로 학생들을 가르치고 있다. 피지컬 AI 분야 로봇 계획 능력, 멀티모달 정보 해석을 통한 적응형 AI 시스템 개발 등 피지컬 AI 분야 로봇의 적응성과 확장성을 개선할 수 있는 연구에 주력하고 있다.
그는 “몸이 있는 AI라는 뜻의 체화 AI(Embodied AI)라는 연구분야를 요즘은 피지컬 AI라고도 부른다”며 “지각, 계획, 행동까지 통합적으로 고려하는 물리 세계와 상호작용이 중요해졌기 때문에 피지컬 AI라는 개념으로 확장된 것”이라고 설명했다.
최 교수는 과거 미국 비영리 연구기관인 앨런 인공지능연구소(Allen Institute for AI, AI2)의 초창기 연구원으로 활동했다. 최근까지 그는 앨런 인공지능연구소 연구원들과 학습 데이터를 최대한 적게 사용하면서도 높은 성능을 유지할 수 있는 효율적인 AI 학습 방법을 연구했다. 그는 “처음 갔을 때만 해도 연구원이 35명밖에 없었다”며 “지금은 300명이 넘을 정도로 규모도 커졌고 연구 포커스도 많이 달라졌다”고 말했다. 이어 “설립 초기에는 이론 중심의 원천 기술에 대한 연구에 주력했다면 지금은 AI2가 대형 모델 개발에 집중하고 있다”며 “무엇보다 완전한 오픈소스 철학을 지향하고 있고 임팩트 있는 모델을 연구하는 방향으로 바뀌었다”고 설명했다.
최 교수는 피지컬 AI 분야 전망에 대해 “AI 분야 창시자 가운데 한 명인 마빈 민스키 MIT 교수가 1970년에 평균적인 인간 수준의 AI가 나오기까지 3-8년 정도 걸릴 것이라고 예측한 것이 틀린 것처럼 AI 기술에 대한 전망은 예측하기 어렵다”는 의견을 내놨다. 그와 자세한 이야기를 나눠봤다.
- 최근 진행한 피지컬 AI 분야 연구는 무엇인가.
“트레이닝 데이터를 최대한 적게 사용하면서도 높은 성능을 유지할 수 있는 효율적인 학습 방법을 연구하고 있다. 데이터 효율성이 높아지면 아무래도 성능은 좀 떨어질 수 있다. 성능을 최대한 적게 떨어뜨리면서 효율성을 최대한 높이고자 하는 연구다. 최근에는 행동 전 심사숙고 과정을 통해 실패를 줄이는 ‘계획 재수정 기반 학습’ 모델을 제안했다. 실행 전에 신중히 판단하는 방식이 오히려 실패율을 낮추고, 행동 시퀀스를 줄이는 효과도 나타났다.”
- 데이터 효율성 연구는 어떤 산업에 영향을 줄 수 있나.
“데이터를 적게 쓰면 학습에 필요한 시간과 비용이 줄어들고 새로운 작업에 적응하는 속도가 빨라지게 된다. 다양한 분야에서 로봇이 적응하는 데 걸리는 시간이 짧아진다. 예를 들어 로봇이 어떤 물체를 밀 수 있는 동작은 학습했지만 당기는 동작은 학습하지 못한 상황이라고 가정하자. 밀기 동작을 학습할 때 데이터가 1000개 필요했다면 당기기 동작은 100개 정도의 데이터만으로도 학습할 수 있도록 만드는 것이 이 연구 목표라고 보면 된다.”
- 적은 데이터로 실패를 줄이며 다양한 상황에 빠르게 적응하는 로봇 AI를 만드는 연구의 한계는 무엇인가.
“데이터가 부족하면 원래 학습이 잘 안된다. 이 문제를 해결하기 위해 보통 두 가지 주요 접근이 연구되고 있다. 인덕티브 바이어스 기반 접근은 특정 테스크(task)에 맞춰 추론 방향을 유도하는 방식이다. 이는 데이터 대신 지침을 주는 것으로 각 테스크에 맞게 커스터마이징해야 한다는 복잡성이 따른다. 다른 하나는 대형 모델 기반 접근이다. 로봇 파운데이션 모델로 다양한 작업을 암묵적으로 수행할 수 있도록 모델의 크기를 키우는 방식이다. 이 방식은 별도의 데이터 없이도 적응 가능성을 높이지만 컴퓨팅 리소스가 매우 많이 들고, 모델을 키우는 데 현실적인 제약이 많다는 점이 한계이다. 우선 로봇 파운데이션 모델을 잘 만드는 것이 급선무이다. 잘 만들어지면 로봇의 적응력이 좋아진다. 그래서 로봇 파운데이션 모델을 국내 연구를 통해 빨리 확보하는 게 중요하다. 하지만 GPU 자원이 제한적이라 학교 혼자의 힘으로는 한계가 있다. 산업계와 국가적 지원이 필요하다.”
- 멀티모달 정보가 피지컬 AI 성능을 어떻게 높일 수 있나.
“멀티모달이란 건 말 그대로 여러 가지 ‘모달리티’를 쓰는 것이다. 예를 들어 시각, 청각, 언어 같은 다양한 감각 데이터를 함께 사용한다는 것이다. 데이터가 다양해질수록 AI가 인지할 수 있는 정보가 많아지기 때문에 지각이나 추론의 정확도도 높아진다. 예를 들어 사람이 물체를 보고 소리를 듣고 만지면서 인식하듯이 AI도 다양한 감각 정보를 융합하면 복잡한 환경에서도 더 정확하게 판단하고 행동할 수 있게 된다. 물론 이 과정에서 서로 다른 센서 간 간섭 즉 ‘교란(Interference)’이라는 현상이 생길 수도 있지만 다양한 지각 채널이 있으면 그만큼 보완도 잘 된다. 결과적으로 멀티모달 정보는 피지컬 AI의 인지와 행동 계획 능력을 보다 강건하고 유연하게 만들어 줄 수 있다”
- 로봇이 적응력을 갖게 되면 어떤 일이 벌어지나. 로봇의 적응력은 어느 정도 수준인가.
“로봇이 걷는다는 것은 굉장히 어려운 일이다. 사람은 쉽게 걸을 수 있지만 기계는 아니다. 신발이나 바닥 상태에 따라 계속 조건이 달라진다. 로봇이 그런 다양한 조건에서도 잘 걷고 물건을 잡을 수 있다는 건 실제로 환경에 적응하는 학습을 많이 했다는 뜻이다. 강화학습이 추구하는 게 이런 적응력인데 오랫동안 저평가되었던 기술이 컴퓨팅 파워와 데이터의 발전 덕분에 최근에 재조명되고 있다. 로봇의 적응력이 사람들이 체감할 만한 기술적 수준이 되면 널리 용될 것이다.”
- 피지컬 AI 분야에서 가장 시급한 기술적 돌파구는 무엇이라고 생각하나.
“현재는 언어 모델을 스케일업하는 흐름이 로봇 파운데이션 모델로 이어지고 있는 시기이다. AI 모델을 더 크게 만드는 게 맞는가 아니면 경험을 통한 체화 AI를 발전시키는 것이 맞는가에 대한 논쟁이 있지만 자원이 있다면 스케일업은 확실한 방법이다. 오픈AI는 천문학적인 자금을 끌어모아 스케일업을 시도하고 있다. 이 경쟁에 우리도 뛰어들어야 하느냐는 논의가 있으나 거대 파운데이션 모델을 만드는 것과 경험을 통한 자가 학습 방식을 이용하는 것 양쪽 모두 시도해야 한다고 생각한다. 피지컬 AI를 위한 파운데이션 모델은 아직 스케일링이 충분히 되지 않아서 성능이 나오지 않는 것일 수도 있고, 추론 능력이 부족해서일 수도 있다.”
- 로봇 파운데이션 모델을 빨리 확보해야 하는 이유는.
“글로벌적으로 사용할 만한 로봇 파운데이션 모델이 확보가 안 돼 있다. 전 세계에서 이것을 만들려고 노력하고 있고 조만간 나올지도 모른다. 당장 내일 나올 수도 있다. 세계적으로 앞서 기관들이 초거대 컴퓨팅 리소스를 활용해 로봇 파운데이션 모델을 만드는 것은 시간문제다. 이러한 흐름에 뒤처지지 않기 위해 국내에서도 로봇 파운데이션 모델을 구축하는 데 힘써야 한다.”
- 피지컬 AI 분야에서 한국이 퍼스트 무버가 될 수 있을 것이라고 예상하나.
“로봇 연구에 대한 지원이나 투자가 적었고 반도체처럼 연구 과제나 지원도 많지 않았다. 하지만 지금이라도 필요하다고 판단되면 뚝심 있게 밀어붙일 필요가 있다. OLED 디스플레이가 대표적인 사례다. 처음엔 많은 반대가 있었지만 기업들과 정부가 리스크를 떠안고 밀어붙여 결국 세계적으로 경쟁력을 갖게 됐다. 피지컬 AI는 아직 글로벌 차원에서도 초창기라 할 수 있다. 로봇 분야에서 국내 연구 기반이 강하지 않을 수 있지만 피지컬 AI는 AI 애플리케이션의 하나로 새로운 영역이기 때문에 퍼스트 무버가 될 수 있는 기회가 있다. 뜰 것 같다고 생각될 때 투자하면 이미 늦는다. 중요하다고 느낀다면 유망성 여부와 상관없이 과감하게 투자해야 한다. 양자 컴퓨팅이나 보안 같은 분야도 마찬가지다. 이스라엘, 이란 같은 나라들도 오래전부터 연구를 시작했다. 나중에 그 분야가 뜨면 우리는 또 뒤처지게 된다.”
- 피지컬 AI 발전의 최종 목표는 무엇인가.
“사람이 살아가는 물리적 환경에서 사람처럼 자연스럽게 작동하는 로봇을 만드는 것이 최종 목표이다. 단순한 기계적 작동을 넘어서 주변을 인지하고 계획할 수 있고 또 환경 변화를 감지해 즉각적으로 행동할 수 있는 수준의 AI이다. 이를 위해서는 지각-계획-행동을 모두 아우르는 AI 모델이 요구된다. 현재는 그 통합 모델의 초기 단계에 머무르고 있다.”
- 피지컬 AI 기술이 향후 1년, 3년, 5년 뒤 어떻게 변화할 것이라고 보나.
“피지컬 AI의 구체적인 변화 양상은 예측하기 어렵지만 AI 전반의 방향성은 명확하다. 컴퓨터는 인간보다 빠르게 기억하고 계산하는 데 특화돼 있다. 따라서 속도가 관건인 문제들에 대해 AI가 큰 역할을 하게 될 것이다. 예를 들어 신물질 개발이나 신약 개발처럼 수많은 조합을 빠르게 실험해 봐야 하는 분야에서는 AI가 빠른 계산으로 효율을 극대화할 수 있다. 천 년이 걸리는 문제도 AI가 1년 안에 풀 수 있게 된다.”
- AI 기술 격차가 점점 벌어지고 있다. 이에 어떻게 대비해야 하나.
“장비가 있어야 한다. 컴퓨팅 자원이 핵심이다. 다른 대응은 컴퓨팅 장비를 확보한 이후에야 본격적으로 할 수 있다고 생각한다.”
- 마지막으로 하고 싶은 말은.
“AI는 효율성이다. AI를 인간을 능가하는 기술로 생각하면 안 된다. 논리적으로 설명하기 어려운 직관을 필요로 하는 추론은 AI의 장점과는 거리가 있다고 생각한다. AI가 인간의 직감을 흉내내는 것은 어려울 것이라고도 생각한다. 삶을 개선하는 데 필요한 문제에 대해 AI가 원래 잘하는 빠르게 계산하는 방향으로 발전시켜야 한다.”