최종편집:2025-11-26 07:49 (수)
실시간
[KCCV 2025] 엄찬호 중앙대 교수 “복잡한 설명도 이해하는 AI, 생성과 검색에 적용”

[KCCV 2025] 엄찬호 중앙대 교수 “복잡한 설명도 이해하는 AI, 생성과 검색에 적용”

  • 기자명 김동원 기자
  • 입력 2025.08.05 11:32
  • 수정 2025.08.05 11:33
  • 0
  • 본문 글씨 키우기
이 기사를 공유합니다

기존 CLIP, 77토큰 한계로 복잡한 문장 이해에 제약
문장 분할과 객체 세분화로 세밀한 매칭 구현
고양이 코 위 숫자도 인식… 생성·검색 AI 정밀도 향상

엄찬호 중앙대 첨단영상대학원 교수는 5일 KCCV 2025에서 긴 문장을 이해해 더 정확하고 세밀한 이미지 검색을 할 수 있는 기술을 발표했다. /김동원 기자
엄찬호 중앙대 첨단영상대학원 교수는 5일 KCCV 2025에서 긴 문장을 이해해 더 정확하고 세밀한 이미지 검색을 할 수 있는 기술을 발표했다. /김동원 기자

인공지능(AI)이 긴 문장을 이해해 더 정확하고 세밀한 이미지 검색을 할 수 있는 기술이 개발됐다. 오픈AI가 개발한 멀티모달 AI 모델 CLIP의 한계를 극복해 적은 데이터만으로도 기존 방법보다 뛰어난 성능을 달성한 연구 성과다.

엄찬호 중앙대 첨단영상대학원 교수는 5일 한국컴퓨터비전학회(KCCV) 2025에서 ‘GOAL: Global-local Object Alignment Learning’ 연구를 발표했다. 이 연구는 CVPR 2025에 소개된 연구로, 최영규 학부생과 장영근 구글 딥마인드 박사(前 메타 AI 리서치)가 공동 참여했다.

◇ SAM 활용한 이미지-텍스트 세분화 매칭으로 돌파구

CLIP은 이미지와 텍스트를 연결해 학습하는 대표적인 파운데이션 모델이지만, 입력 텍스트를 77개 토큰으로 제한하는 치명적 한계가 있었다. 이로 인해 ‘역사적인 건물이 있는 거리에서 파란색, 노란색, 초록색 옷을 입은 사람들이 걸어가고 있는’ 같은 세밀한 설명을 이해하지 못하고 앞쪽 일부 정보만 처리하는 문제가 있었다.

엄 교수팀은 이 문제를 해결하기 위한 접근법을 제시했다. 핵심 아이디어는 ‘CLIP이 이미 알고 있는 것을 활용하자’는 것이다. 긴 텍스트는 이해하지 못하지만. 짧은 문장 단위로는 충분히 정확한 매칭이 가능하다는 점에 착안했다.

연구팀은 먼저 SAM(Segment Anything Model)을 활용해 이미지를 의미있는 객체 단위로 세분화했다. 동시에 긴 텍스트 설명을 문장 단위로 나눈 후, 각 문장과 해당하는 이미지 세그먼트 간의 매칭을 찾아내는 방식을 개발했다.

일례로 ‘물가에 건물이 비춰져 있는 모습’이라는 문장이 있으면, 이미지에서 물과 건물이 포함된 영역을 자동으로 찾아 연결시키는 것이다. 이 과정을 통해 CLIP이 세밀한 부분까지 인식할 수 있도록 학습시켰다.

◇ 기존 LongCLIP 대비 99% 적은 데이터로 우수한 성능

연구팀이 개발한 GOAL 방법의 가장 큰 장점은 데이터 효율성이다. 기존의 LongCLIP 방법이 100만 장의 새로운 데이터셋을 구축해 모델을 처음부터 재학습했던 반면, GOAL은 1만 장 미만의 데이터로 기존 CLIP을 파인튜닝하는 방식으로 더 나은 성능을 달성했다.

엄 교수는 “LongCLIP보다 99% 적은 데이터를 사용하면서도 훨씬 더 좋은 성능을 보이는 방법을 개발했다”며 “이는 CLIP이 이미 가지고 있는 지식을 효율적으로 활용한 결과”라고 설명했다.

실험 결과 GOAL 방법은 기존 LongCLIP 대비 약 13% 향상된 성능을 보였다. 특히 세밀한 이미지 검색에서 두각을 나타냈는데, 고양이 코 위의 작은 숫자까지도 인식해 정확한 이미지를 찾아내는 수준에 도달했다.

◇ 텍스트 기반 이미지 생성과 검색 분야 혁신 기대

이 기술은 다양한 응용 분야에서 혁신을 가져올 것으로 기대된다. 텍스트 기반 이미지 생성 분야에서는 ‘이슬이 맺힌 꽃밭에서 새가 노래하는 아침 풍경’과 같은 복잡하고 세밀한 설명을 바탕으로 한 정확한 이미지 생성이 가능해진다.

이미지 검색 분야에서도 기존에는 불가능했던 매우 구체적이고 세밀한 검색이 가능해진다. 사용자가 ‘특정 색상의 옷을 입은 사람이 특정 건축물 앞에서 특정 행동을 하는’ 등의 복합적인 조건을 만족하는 이미지를 정확히 찾을 수 있게 된다.

연구팀의 실험에서는 어텐션 맵 분석을 통해 GOAL로 학습된 모델이 실제로 객체 단위에서 더 정확한 어텐션을 보이는 것을 확인했다. 이는 모델이 텍스트의 각 요소를 이미지의 해당 영역과 정확히 연결해 이해하고 있음을 의미한다.

엄 교수는 “이번 연구는 기존 파운데이션 모델의 효율적 활용 방안을 제시한 것”이라며 “대규모 데이터와 컴퓨팅 자원 없이도 기존 모델의 성능을 크게 향상시킬 수 있는 방법론을 개발했다는 점에서 의미가 크다”고 강조했다.

연구팀은 이 기술을 더욱 발전시켜 멀티모달 AI의 성능 향상에 기여할 계획이라고 밝혔다. 특히 실제 산업 현장에서 활용 가능한 수준의 정확도와 효율성을 갖춘 시스템 개발에 집중할 예정이다.

저작권자 © THE AI 무단전재 및 재배포 금지
관련기사
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
모바일버전