[LG AI 토크콘서트 2025] 세계 최초 양방향 멀티모달의 귀환
LG AI연구원, 멀티모달 비밀병기 ‘엑사원 4.0 VL’ 공개 기업 AI 전환 핵심 기술… 벤치마크서 글로벌 최고 성능 입증
멀티모달 강자 LG AI연구원의 ‘비밀병기’가 베일을 벗었다. 복잡한 차트와 기업 문서를 사람보다 정확하게 읽어내는 멀티모달 AI ‘엑사원(EXAONE) 4.0 VL’을 선보였다. 이 모델은 글로벌 최고 성능을 달성하며, 텍스트 위주의 생성형 AI 시대를 넘어 진정한 비즈니스 AI 혁명의 신호탄을 쏘아 올렸다.
◇ 세계 최초 양방향 멀티모달, 4년 만에 깨어나다
LG AI연구원은 22일 서울 강서구 마곡 LG사이언스파크에서 열린 ‘LG AI 토크 콘서트 2025’에서 처음으로 비전-언어 통합 모델을 대외에 공개했다. 2021년 세계 최초로 양방향 멀티모달 기능을 선보인 엑사원 이후 4년 만이다.
이홍락 LG AI연구원 공동원장은 “우리는 2021년 엑사원 첫 모델을 공개할 때부터 멀티모달을 강조해 왔지만, 그동안은 내부 활용에 집중하고 외부에 공개하지 않았다”고 설명했다.
LG AI연구원의 멀티모달 기술에 대한 신중한 접근은 이유가 있었다. 2021년 12월 처음 공개된 엑사원은 텍스트를 이미지로, 이미지를 텍스트로 변환하는 세계 최초의 양방향 멀티모달 AI로 주목받았다. 당시 오픈AI의 달리(DALL-E)가 텍스트에서 이미지로만 변환 가능했던 것과 차별됐다.
LG AI연구원은 해당 기술을 내부에서 활용하며 기술 완성도를 높이는 데 집중했다. 4년이라는 시간 동안 멀티모달 기술을 내부에서 꾸준히 발전시켜 왔다. 그 결과 이번에 공개된 엑사원 4.0 VL은 단순한 이미지 생성을 넘어 복잡한 비즈니스 문서까지 이해하는 수준에 도달했다는 설명이다.
◇ “호르무즈 해협 석유량도 척척” 차트 이해 세계 1위 달성
이번에 공개된 엑사원 4.0 VL의 핵심은 ‘탁월한 이미지 이해 능력’이다. 이 원장은 “일반적인 이미지를 이해하여 질의응답하는 것은 기본이고, 기존 이미지 이해 모델이 보여주지 못했던 복잡한 문서 이해 능력을 가지고 있다”고 강조했다.
실제 성능도 이를 뒷받침한다. 차트에 대한 시각 및 언어 이해 능력을 평가하는 ‘차트(Chart) QA’ 벤치마크에서 글로벌 최고 성능을 달성했다. 영어 기반의 차트, 문서에, 그림 이해와 한국어 문서 이해 모두에서 최고 수준을 보여줬다. 일반 영역에서도 메타 라마 4 스카우트(Llama 4 Scout) 등 동급 이상의 모델보다 성능 비교에서 앞섰다.
토크콘서트에서 진행된 실제 시연은 그 능력을 생생하게 보여줬다. 국제에너지기구(IEA)가 발간한 ‘월드 에너지 아웃룩’ 보고서의 복잡한 그래프를 대상으로 “한국과 일본에 얼마나 많은 석유가 호르무즈 해협을 통해 공급되느냐”고 질문했을 때, 엑사원 4.0 VL은 해당 이미지가 호르무즈 해협임을 인식하고 초록색과 연두색을 구분하여 한국과 일본에 공급되는 석유량이 420만 배럴이라는 것을 정확히 찾아냈다.
이 원장은 “문서 하단에는 여러 색깔별로 석유가 공급되는 물량을 표시하고 있는데, 해당 이미지가 호르무즈 해협이라는 것을 인식하고 초록색과 연두색을 구분하여 정확히 찾아낸다”며 “문서 이해 능력이 상당하다”고 평가했다.
이러한 능력은 기업의 AI 전환(AX, AI Transformation)에서 핵심적 역할을 할 것으로 전망된다. 이 원장은 “산업계에서 간절히 바라고 있는 AX에 있어 가장 중요한 첫 단계이자 핵심 기능은 바로 기업이 보유한 방대한 내부 문서를 정확히 이해하는 것”이라며 “이는 단순히 텍스트 해석을 넘어 회화와 차트 등 다양한 형식의 데이터를 함께 파악해 사용자가 원하는 인사이트를 제공하는 밑바탕이 된다”고 강조했다.
◇ “뉴욕 패션위크부터 의료 혁신까지” 멀티모달 DNA 4년의 궤적
LG AI연구원의 멀티모달 기술력이 하루아침에 만들어진 것은 아니다. 4년간의 꾸준한 축적과 다양한 분야에서의 실험이 오늘의 성과를 만들어냈다.
가장 화제가 됐던 것은 2022년 창의적 영역에서의 도전이었다. 세계 최초로 AI와 인간 디자이너가 협업한 작품을 뉴욕 패션위크에서 선보인 것이다. AI 아티스트 ‘틸다(Tilda)’가 박윤희 디자이너와 함께 ‘금성에 핀 꽃’을 모티브로 한 200여 벌의 패션 컬렉션을 완성했다. 틸다는 3000장이 넘는 이미지와 패턴을 창작했고, 이 프로젝트는 뉴욕 페스티벌 광고제에서 금상을 수상하며 AI의 창의적 가능성을 전 세계에 알렸다.
의료 분야에서도 혁신적 성과를 거뒀다. 2023년 5월 THE AI 주최로 서울 대한상공회의소에서 열린 글로벌 AI 컨퍼런스 ‘AWC 2023 in Seoul’에서 이화영 LG AI연구원 상무는 한양대병원과의 공동 연구 결과를 발표했다. 기존 AI 모델이 수만 장의 의료영상 데이터가 필요한 반면, 엑사원은 10%의 데이터만으로도 더 높은 성능을 보였다. 기존 모델이 80% 성능을 낼 때 엑사원은 89% 성능을 달성했다. 이 상무는 “멀티모달 기술이 디지털 의료 분야에 게임 체인저 역할을 할 수 있을 것”이라고 평가했다.
글로벌 학계에서도 지속 인정받았다. 2022년 컴퓨터 비전 분야 최고 학회인 CVPR에서 엑사원 기반 연구논문 6편을 발표했으며, 이 중 2편이 전체 논문의 4% 이내에 해당하는 구두 발표에 선정됐다. 특히 ‘L-Verse: Bidirectional Generation Between Image and Text’라는 양방향 멀티모달 기술 논문이 단독 연구로 구두 발표되며 독자 기술력을 입증했다.
2023년 7월에는 엑사원 2.0 아틀리에 플랫폼을 통해 멀티모달 기술을 더욱 고도화했다. 3억 5000만 장의 이미지-텍스트 페어 데이터를 학습한 이 모델은 저작권이 확보된 데이터만 사용해 저작권 이슈도 해결했다. LG생활건강이 이 플랫폼으로 고급 화장품 패키지와 추석선물세트를 디자인하는 등 실제 비즈니스에서도 활용되기 시작했다.
글로벌 기업들과의 협력도 확대됐다. 세계적인 크리에이티브 플랫폼 기업 셔터스톡과는 AI 이미지 생성 서비스를 공동 개발하고 있으며, 과학전문 출판사 엘스비어와는 문서 이해 기술인 DDU(심층문서이해) 기술 사업화 계약을 체결했다.
이번에 공개한 엑사원 4.0 VL은 차세대 정밀 의료 AI인 엑사원 패스(EXAONE Path) 2.0과 2025년 세계적 AI 모델 평가 플랫폼 ‘Notable AI Models’에 등재되면서 주목받고 있다. 이 원장은 엑사원 4.0 VL에 대해 “방대한 기업 내 문서를 정확히 이해하고 분석하는 데 필수적인 역량으로, 데이터 기반 의사결정을 뒷받침하는 강력한 도구가 될 것”이라고 말했다.