사람의 눈에는 전혀 보이지 않지만 인공지능(AI)을 완전히 속일 수 있는 ‘보이지 않는 노이즈’ 기술이 개발됐다. AI 시스템의 보안 취약점을 진단하고 강인성을 평가하는 중요한 도구로 활용될 수 있는 기술이다.
윤국진 KAIST 기계공학과 교수팀은 4일 ‘KCCV(Korean Conference on Computer Vision) 2025’에서 여러 AI 모델을 동시에 속일 수 있는 ‘전이 가능한 적대적 공격(Transferable Adversarial Attack)’ 기술을 발표했다.
연구팀이 개발한 기술은 정지 표지판에 작은 테이프를 붙이는 것만으로 AI가 이를 다른 물체로 인식하게 만드는 것과 같은 원리다. 하지만 기존 방식과 달리 사람이 전혀 인지할 수 없는 미세한 노이즈를 이미지에 삽입해 AI만 속일 수 있다.
해당 연구는 KAIST 기계공학과 윤국진 교수 연구팀이 수행했다. 팀에는 박사과정의 양훈민과 정종오 학생이 중심적으로 참여했으며, 이들은 최근 ECCV 2024에서 ‘Prompt‑Driven Contrastive Learning for Transferable Adversarial Attacks’ 논문으로 구두 발표 논문 상위 2.3%에 해당하는 성과를 달성했다.
◇ 하나의 공격으로 여러 AI 모델 동시 무력화
기존 적대적 공격 기술들은 특정 AI 모델에만 효과가 있어 실제 응용에 한계가 있었다. 하지만 윤 교수팀이 개발한 기술은 하나의 공격 패턴으로 서로 다른 여러 AI 모델을 동시에 속일 수 있는 장점이 있다.
윤 교수는 “실제 상황에서는 어떤 AI 모델이 사용되고 있는지 알 수 없기 때문에, 다양한 모델에 공통적으로 작동하는 공격 기법이 필요했다”며 “이는 AI 시스템의 취약점을 발견하고 보안을 강화하는 데 중요한 의미가 있다”고 설명했다.
연구팀은 이를 위해 ‘대리 모델(Surrogate Model)’ 방식을 활용했다. 공격 대상이 되는 실제 AI 모델에 대한 정보가 전혀 없는 상황에서, 임시로 선정한 대리 모델을 대상으로 공격을 설계한 후, 이 공격이 다른 모델들에도 효과적으로 전이되도록 하는 방식이다.
이번 연구에서는 오픈AI의 CLIP(Contrastive Languagemage Pre-training) 모델을 핵심 도구로 활용했다. CLIP은 텍스트와 이미지를 함께 학습한 파운데이션 모델이다. 윤 교수는 “하나의 텍스트 설명이 다양한 도메인의 이미지들을 대변할 수 있는 특성을 가지고 있어 범용적인 공격 개발에 적합하다”고 평가했다.
◇ 학습 가능한 프롬프트로 공격 정확도 대폭 향상
윤 교수는 또 다른 연구 성과로 ‘학습 가능한 프롬프트(Learnable Prompt)’ 기술을 소개했다. 기존 방식이 “a photo of a dog”처럼 단순한 텍스트 프롬프트를 사용했다면, 새로운 방식은 AI가 스스로 최적의 프롬프트를 학습하도록 했다.
윤 교수는 “강아지 이미지를 고양이로 오인식하게 만들려면, 강아지 이미지의 특징을 CLIP의 임베딩 공간에서 고양이 방향으로 밀어내야 한다”며 “이때 프롬프트를 어떻게 설정하느냐에 따라 공격 성능이 크게 좌우되는데, AI가 직접 최적의 프롬프트를 찾도록 했다”고 설명했다.
연구팀이 개발한 시스템은 원본 이미지와 노이즈가 추가된 이미지를 각각 대리 모델과 CLIP에 입력한 후, 두 모델에서 나온 특징들이 서로 멀어지도록 학습시킨다. 동시에 CLIP에서는 조작된 이미지가 잘못된 클래스(예: 강아지→고양이)로 분류되도록 유도한다.
이 과정에서 핵심은 서로 다른 모델에서 나온 임베딩들을 직접 비교하지 않고, 같은 모델 내에서의 특징들만 비교한다는 점이다. 이를 통해 더 안정적이고 효과적인 공격 패턴을 생성할 수 있었다는 게 그의 설명이다.
◇ AI 보안 강화를 위한 ‘선의의 해킹’ 도구
이번 연구는 AI를 공격하기 위한 악의적 목적이 아니라, AI 시스템의 보안을 강화하기 위한 ‘선의의 해킹’ 도구 개발에 초점을 맞췄다. 적대적 공격 기술은 AI 모델의 강인성을 평가하고 취약점을 발견하는 중요한 벤치마크 역할을 한다.
실험 결과, 연구팀이 개발한 기술은 다양한 도메인과 모델에서 높은 공격 성공률을 보였다. 특히 합성곱신경망(CNN) 기반의 여러 AI 모델들에서 공통적으로 성능을 크게 저하시키는 것으로 나타났다. 동시에 이미지 품질은 거의 손상되지 않아, 사람이 육안으로는 변화를 감지할 수 없는 수준을 유지했다.
윤 교수는 “우리가 개발한 공격이 성공한다는 것은 해당 AI 시스템에 보안 취약점이 있다는 의미”라며 “이를 통해 AI 개발자들이 더 강인한 모델을 만들 수 있도록 돕는 것이 연구의 궁극적 목표”라고 강조했다.
연구팀은 또한 제로샷(Zero-shot) CLIP 모델의 이미지 분류 성능도 크게 저하시킬 수 있음을 확인했다. 이는 최근 각광받고 있는 파운데이션 모델들도 적대적 공격에 취약할 수 있음을 시사한다.
향후 연구팀은 이 기술을 더욱 발전시켜 트랜스포머 기반 모델들에도 적용할 수 있는 공격 기법을 개발할 계획이라고 밝혔다. 또한 실제 AI 보안 시스템에서 활용할 수 있는 방어 기법 개발에도 나설 예정이다.