오픈AI ‘소라 2’서 시스템 지침 유출 취약점 발견

음성 출력 클립 반복 전사로 내부 프롬프트 복원 가능

2025-11-14 유덕규 기자

오픈AI의 최신 영상 생성형 인공지능(AI) 모델 ‘소라 2(Sora 2)’에서 내부 시스템 지침이 외부로 유출될 수 있는 보안 취약점이 발견됐다.

13일(현지시간) 보안 전문 매체 사이버시큐리티 뉴스(Cybersecurity News) 등 외신들에 따르면, AI 보안 기업 마인드가드(Mindgard)는 소라 2가 생성한 음성 출력 클립을 반복적으로 전사해 조합하는 방식으로, 모델 내부의 시스템 프롬프트 내용을 상당 부분 복원했다.

마인드가드 연구진은 “영상이나 이미지 변환만으로는 프롬프트 노출이 어렵지만, 15초 길이의 음성 출력 클립을 여러 차례 생성한 뒤 이를 텍스트로 변환해 분석하면 모델 지침을 재구성할 수 있었다”고 설명했다. 해당 프롬프트에는 ‘메타데이터를 먼저 생성하라’, ‘저작권이 있는 문자를 명시적 요청 없이 사용하지 말라’, ‘성적으로 노골적인 콘텐츠를 피하라’ 등의 모델 내부 운용 규칙이 포함된 것으로 알려졌다.

외신들은 이러한 지침이 외부로 공개될 경우, 공격자가 이를 역이용해 가드레일(Gatekeeper) 우회나 프롬프트 인젝션(prompt-injection) 공격을 시도할 수 있다고 경고했다. AI 모델이 안전장치로 삼는 내부 규칙이 노출되면, 훈련된 제한 명령을 회피하거나 민감한 정보를 비정상적으로 추출하는 시도가 가능해질 수 있다는 것이다.

오픈AI 측은 해당 사실을 인지하고 있으며, 마인드가드와의 사전 협의를 통해 공식 절차에 따라 대응한 것으로 알려졌다. 외신들은 전문가들을 인용해, 텍스트에 머물던 AI 활용이 음성·영상 등 멀티모달 영역으로 확장되면서 정보 노출 경로 역시 한층 다양해졌다는 점을 이번 사례가 보여준다고 전했다.