‘언어의 한계가 세상의 한계’라는 말을 남긴 철학자 루드비히 비트겐슈타인(Ludwig Wittgenstein) 주장과 ‘한 사람이 세상을 이해하는 방법과 행동이 그 사람이 쓰는 언어의 문법적 체계와 관련이 있다’고 주장하는 사이어-워프 가설(Sapir-Whorf hypothesis)에서 볼 수 있듯이, 인간의 사고에 언어는 중요한 역할을 한다. 사람은 언어로 소통한다. 말소리는 단순한 정보 전달을 넘어 감정과 뉘앙스를 담고, 때로는 침묵보다 더 많은 의미를 전달한다. 이러한 인간 특유의 소통 방식을 기계에 이식하려는 시도가 바로 음성과 언어 인공지능(AI)의 역사다.
컴퓨터가 등장한 초기부터 음성 인식 및 번역 기술은 국방에서의 필요성 등으로 주요 연구 대상이었지만, 실용화는 쉽지 않았다. 1961년 IBM이 발표한 ‘슈즈박스(Shoebox)’는 숫자와 16개의 단어를 인식했으며, 1972년 카네기멜론대에서 개발된 ‘하피(Harpy)’ 시스템은 1011개의 단어를 처리했지만, 성능은 제한적이었고 비싸고 불편했다. 연구적으로는 의미가 있었으나 실제 활용과는 거리가 있었다.
2010년 이후 음성 인식 기술 및 언어 처리 기술이 비약적으로 발전하면서 비로소 본격적으로 시장이 열리기 시작했다. 2011년 애플의 시리, 2012년 구글의 보이스 서치(Voice Search)와 삼성의 에스 보이스(S Voice), 2014년 아마존의 알렉사와 에코, 2016년 구글 어시스턴트와 구글 홈이 연이어 등장하면서 글로벌 빅테크 기업들이 보이스 어시스턴트 시장에 본격적으로 뛰어들기 시작했다. 필자 역시 2014년 구글 재직 당시부터 보이스 어시스턴트 개발에 참여했고, 2016년 구글의 첫 음성 인식 스피커 출시 과정에서는 원거리 시뮬레이션 음성을 온더플라이(on-the-fly) 방식으로 생성해 학습에 활용하는 대규모 데이터 증강 기법을 처음으로 상용 시스템에 적용한 경험이 있다. 이후 삼성에서는 에스 보이스의 진화형인 빅스비(Bixby) 개발에 관여하며, 보이스 어시스턴트의 초창기 설계와 개발을 산업계 현장에서 직접 경험했다. 학계로 오기 전, 30대와 40대를 산업 현장에서 이러한 기술 개발에 전념했던 셈이다.
당시 글로벌 기업들의 기대와 달리, 2010년대의 보이스 어시스턴트는 명확한 한계를 드러냈다. 문장은 단일 의도와 그에 대응하는 슬롯(slot) 구조로 해석되도록 설계돼 있었고, 문장 간 맥락이 고려되지 않아 복잡한 대화 흐름을 이해하기 어려웠다. 응답 또한 정해진 템플릿 기반 생성 방식이라 자연스러움이 떨어졌고, 인간적인 대화로 느껴지지 않았다. 그 결과 구글 어시스턴트, 아마존 알렉사, 애플 시리 등은 5억 명이 넘는 월간 활성 사용자(MAU)를 확보하며 표면적 성공을 거뒀지만, 실제 사용은 음악 재생, 알람 설정, 전화 걸기, 날씨 확인 등 제한적인 기능에 머물렀다. 기업 입장에서도 수익 모델이 부재했고, 결국 2020년 다수의 서비스들이 구조조정에 들어가면서 보이스 어시스턴트는 침체기에 접어들었다
새로운 도약은 생성형 언어 모델의 등장으로 시작됐다. 2020년에 주목받은 GPT-3.0을 필두로 한 대규모 언어 모델의 비약적 발전은 기계가 인간 언어를 이해하고 생성하는 능력을 한 단계 끌어올렸다. 여기에 음성과 멀티모달 인터페이스가 결합하면서, 보이스 어시스턴트는 다시 주목받기 시작했다. 자연스러운 대화가 가능해졌고, 사용자의 맥락을 파악해 맞춤형 행동으로 이어지는 흐름도 구현되기 시작했다. 유료 기반 프리미엄 서비스에 대한 수요도 증가하면서 산업 전반에 새로운 활력이 생겼고, 시장은 다시 변곡점에 진입했다. 한국 역시 이 흐름에서 뒤처져서는 안 된다.
글로벌 빅테크 기업들이 본격적으로 대형언어모델(LLM) 기반 어시스턴트 시장에 진입하고 있는 상황에서, 한국이 주도권을 확보하기 위해서는 기술 주권뿐 아니라 언어, 문화, 서비스가 통합된 AI 전략이 절실하다. 그동안 한국은 자동차, 선박, 철강 등 전통적인 제조업에서 세계적인 경쟁력을 입증해왔지만, 소프트웨어와 AI 분야에서는 상대적으로 두각을 드러내지 못했다. 이는 하드웨어 중심 산업 구조 속에서 소프트웨어가 부차적인 요소로 인식돼 왔고, 수평적이고 민첩한 개발 문화의 부재, 사용자 중심 기획보다는 요구사항 기반의 톱다운식 개발 방식이 주류를 이뤘기 때문이다. 또한 글로벌 시장을 겨냥한 소프트웨어 확장은 단순 제품 판매로는 해결되지 않는다. 해당 지역의 문화 이해, 지속적인 유지보수, 전략적 브랜딩이 필수인 만큼, 한국은 이런 생태계에 적응하지 못했던 측면이 있다.
한국이 소프트웨어(SW)와 AI 분야에서 글로벌 리더로 도약하기 위해서는 해외 시장을 적극적으로 공략할 수 있는 글로벌 시장에 진출할 수 있는 서비스 개발에 집중해야 한다. 그래야만 국제적인 사용자 기반과 수익을 확보할 수 있으며, 지속 가능한 글로벌 소프트웨어·AI 기업이 등장할 수 있다. 단순히 모델을 개발하고 기술을 논문으로 발표하는 수준에서 머무르지 않고, 실제로 시장에서 경쟁력을 갖춘 서비스로 연결되는 전략이 필요하다. 이를 위해서는 다국어 대응 능력, 문화적 적응력, 다양한 시장에서의 확장성을 고려한 접근이 필수다. 그렇지 않으면 과거에 소프트웨어 글로벌화에 실패했던 경험을 반복하게 될 가능성이 크다.
최근 정부는 ‘소버린 AI’라는 이름으로 국산 LLM 개발에 힘을 싣고 있다. 이는 매우 중요한 방향이지만, 모델 자체 개발에만 머무를 것이 아니라 이를 활용한 국제화 가능한 서비스를 만들어내고 지속 가능한 수익을 창출하는 기업이 등장해야 비로소 성과로 이어질 수 있다. 필자는 완전히 새로 시작하기보다는 한국이 강점을 보유한 가전제품, TV, 로봇청소기, 자동차와 같은 하드웨어에 음성과 언어 AI를 융합해 소프트웨어 경쟁력으로 전이시키는 전략이 더욱 현실적이라고 본다.
최근 주목받고 있는 가정용 로봇 시장도 한국이 주도권을 확보할 수 있는 유망 분야로 생각된다. 이 분야에서는 LLM·시각언어모델(VLM)을 이용한 행동 플래닝 등의 기술이 핵심이 되며, 동시에 사용자와의 자연스러운 인터랙션을 위해 멀티모덜 생성형 LLM으로 구현하는 음성 및 언어 AI의 성능이 중요해진다. 프라이버시 보호, 응답 지연 최소화, 개인화 기능을 실현하기 위해서는 온디바이스 처리 기술 역시 필수 요소이며 한국이 잘할 수 있는 분야로 생각된다. 이 모든 흐름 속에서 독자적인 LLM 개발, 국내 업체들이 글로벌 경쟁력을 가질 수 있는 서비스 영역 발굴, 그리고 온디바이스 기술 확보는 반드시 해결해야 할 과제가 될 것이다. 이는 기존의 제조업 중심 산업 구조를 지능형 하드웨어 기반 산업으로 한 단계 업그레이드시킬 수 있는 중요한 기회가 될 수 있다.
지금까지의 음성 및 언어 기술이 사용자의 발화를 인식하고 미리 정의된 의도 중 하나로 분류하는 단순한 도구에 가까웠다면, 앞으로의 기술은 인간의 감정, 맥락, 의도를 이해하고 이에 반응하는 ‘공감형 지능’으로 진화하고 있다. 외국어 학습, 의료·법률 상담, 재무 컨설팅, 심리 상담, 교육 등 수익 창출이 가능한 다양한 응용 분야가 빠르게 확산하고 있다. 정부는 이러한 분야에서 국내 기업들이 국제적 경쟁력 있는 서비스를 발굴하고 한국이 이미 강점을 가지고 있는 제조업의 장점을 살리면서 글로벌 시장에 진출할 수 있도록 산학 연계를 장려하며 제도적 기반을 마련하고 육성해야 한다. 동시에 한국 기업들이 잘할 수 있는 영역을 발굴하고, 그 서비스가 국제적 경쟁력을 가질 수 있도록 전략적으로 지원해야 한다. 전통적으로 강점을 보여온 제조업도 음성과 언어 AI와 결합해 지능형 산업으로 진화하며 더 높은 부가가치를 창출할 수 있어야 한다.
김찬우는 고려대 인공지능학과 교수로 구글과 마이크로소프트, 삼성리서치 등 글로벌 기업에서 음성과 언어 AI 기술을 연구·개발해 온 국내 최고 전문가다. 구글 어시스턴트와 삼성 빅스비(Bixby) 개발에 참여했고 온디바이스 AI 기술 상용화를 선도했다. 2023년까지 삼성리서치 부사장으로 재직하면서 자체 LLM 개발을 이끌었다. 카네기멜런대 컴퓨터과학부 언어기술연구소에서 음성인식 분야 박사학위를 받았다. 학사와 석사학위는 서울대 전기공학부에서 받았다. 현재는 현대위아, 아이스크림 미디어 사외이사로도 활동 중이다.