[김동원의 Eye-T] AI 안전, 이제 사용자가 정한다
오픈AI ‘GPT-OSS-세이프가드’ 오픈소스 공개 AI 판단 이유, 단계별로 설명 가능 상업용 무료 공개… 고위험 영역은 전용 모델 필요
[편집자 주] ‘김동원의 Eye-T’는 IT 소식을 직접 눈(Eye)으로 보는 것처럼 생생하게 전달하는 것을 목적으로 합니다. 유용한 IT 기술과 솔루션을 쉽고 자세하게 보여드리겠습니다.
“무엇이 유해한가?”
이 질문에 대한 답은 플랫폼마다, 커뮤니티마다, 문화마다 다릅니다. 어린이용 게임 플랫폼과 성인 토론 포럼의 안전 기준이 다르고, 한국과 미국의 표현 기준도 다릅니다. 그런데 지금까지 인공지능(AI) 안전 시스템은 ‘무엇이 안전하지 않은지’를 AI 회사가 미리 정해둔 대로만 판단했습니다. 학습한 대로만 판단했던 것이죠.
챗GPT 개발사인 오픈AI는 29일 ‘GPT-OSS-세이프가드(Safeguard)’를 출시하며 이러한 관행을 바꿨습니다. 이 세이프가드는 사용자가 직접 안전 기준을 작성하면, AI가 그 기준대로 콘텐츠를 판단합니다. 이 기술은 아파치(Apache) 2.0 오픈소스 라이선스로 무료 공개했습니다.
◇ “왜 이 콘텐츠를 차단했나?”… 이젠 설명할 수 있다
기존 AI 안전 시스템의 문제 중 하나는 유연성 부족이었습니다. 일례로 게임사가 ‘게임 내 버그 악용 기법’에 대한 정책을 변경하려면, 수천 개의 예시 데이터를 다시 모으고 AI 모델을 재훈련해야 했습니다. 이는 수주에서 수개월이 걸리는 작업입니다. 비용도 만만치 않죠.
GPT-OSS-세이프가드는 이 과정을 근본적으로 바꿨습니다. 관리자가 “버그 악용 기법 공유는 경고 대상”이라고 문서에 적기만 하면, AI는 즉시 그 기준으로 게시물을 판단합니다. 정책 변경에 모델 재훈련이 필요 없는 것이죠.
디스코드(Discord), 레딧(Reddit), 유튜브 같은 플랫폼들이 자체 커뮤니티 가이드라인을 직접 AI에 적용할 수 있게 됐습니다. 제품 리뷰 사이트는 가짜 리뷰를 걸러내는 자체 기준을 만들 수 있고, 교육 플랫폼은 연령 별로 다른 안전 기준을 적용할 수 있습니다.
오픈AI는 내부적으로 이미 ‘세이프티 리즈너(Safety Reasoner)’라는 이름으로 이 기술을 GPT-5와 소라(Sora) 2와 같은 자사 제품에 사용하고 있었습니다. 이번에 그 핵심 기술을 대중에게 공개한 것입니다.
GPT-OSS-세이프가드의 특징 중 하나는 투명성입니다. 기존 AI 안전 시스템은 “이 콘텐츠는 위반입니다”라고만 알려줬습니다. 왜 위반인지, 어떤 기준으로 판단했는지는 블랙박스였죠. 사용자는 답답했고, 운영자도 설명할 방법이 없었습니다.
새 시스템은 판단 과정을 단계별로 보여줍니다. “이 문구가 정책 3조에 해당하며, 이런 맥락에서 위반으로 판단했습니다”처럼 AI의 사고 과정을 추적할 수 있습니다. 이를 ‘체인 오브 쏘트(Chain-of-Thought, 추론 과정 공개)’라고 부릅니다.
이는 법적 분쟁이나 고객 불만 대응에서 특히 중요합니다. “AI가 그렇게 판단했어요”가 아니라 “이런 이유로 이 기준에 위배됩니다”라고 구체적으로 설명할 수 있기 때문입니다.
◇ 오픈AI는 왜 안전 기술을 오픈소스로 공개했을까
오픈AI는 이번 기술을 두 가지 크기의 모델로 제공한다고 밝혔습니다. 120B 모델과 20B 모델입니다. GPT-OSS-세이프가드-120b(1170억 파라미터)는 복잡한 판단에 적합하고, 20b(210억 파라미터)는 빠른 반응이 필요한 실시간 서비스에 적합합니다. 20b 모델은 16GB 메모리의 일반 GPU(그래픽처리장치)에서도 구동 가능해 중소 기업도 사용할 수 있습니다.
오픈AI는 최근 비영리에서 영리 구조로 전환하며 “너무 빠른 상업화가 안전을 희생시킨다”는 비판을 받아왔습니다.
이번 GPT-OSS-세이프가드 공개는 그런 비판에 대한 답변으로 해석됩니다. AI 안전 기술을 독점하지 않고 공개함으로써 “AI 안전은 한 회사의 책임이 아니라 업계 전체가 함께 풀어야 할 과제”라는 메시지를 전달한 것입니다.
실제로 오픈AI는 디스코드, 세이프티킷(SafetyKit), 루스트(ROOST, Robust Open Online Safety Tools) 같은 안전 전문 조직들과 협력해 이 모델을 개발했습니다. 루스트는 이번 출시와 함께 ‘ROOST Model Community’를 깃허브에 개설해, 연구자와 안전 전문가들이 모범 사례를 공유하고 오픈소스 AI 안전 모델을 함께 개선하는 장을 만들었습니다.
비나이 라오(Vinay Rao) 루스트 최고기술책임자(CTO)는 “자체 정책과 유해성 정의를 가져올 수 있는 설계의 최초 오픈소스 추론 모델”이라며 “다양한 정책을 이해하고, 추론 과정을 설명하며, 정책 적용에서 뉘앙스를 보여주는 능력이 개발자와 안전팀에 도움이 될 것”이라고 평가했습니다.
이는 구글의 세이프티킷, 앤트로픽의 가드(Guard) 같은 폐쇄적 독점 시스템에 대한 직접적인 도전이기도 합니다. 오픈AI의 이번 움직임으로 AI 안전 분야에서도 투명성과 오픈소스가 새로운 표준이 될 수 있을지 주목됩니다.
◇ 한계는 무엇일까
오픈AI는 이 시스템의 한계도 밝혔습니다. 매우 복잡하거나 미묘한 위험을 다룰 때는, 수만 개의 고품질 데이터로 훈련된 전용 분류 모델이 여전히 더 정확할 수 있습니다. 특히 아동 안전, 테러, 극단적 폭력 같은 고위험 영역에서는 전통적인 방식이 더 신뢰할 만합니다.
오픈AI도 내부적으로는 이중 방어 체계를 씁니다. 먼저 빠르고 가벼운 분류기로 의심 콘텐츠를 걸러낸 뒤, 세이프티 리즈너가 정밀 분석하는 방식입니다. 개발자들도 이런 단계별 접근을 고려해야 합니다.
그럼에도 GPT-OSS-세이프가드는 AI 안전의 민주화를 위한 첫걸음입니다. 대기업만이 아니라 중소 플랫폼, 커뮤니티, 개발자 누구나 자신의 가치관과 기준으로 AI 안전 시스템을 만들 수 있게 됐습니다.
현재 이 기술은 허깅페이스에서 다운로드할 수 있으며, 상업적 이용도 자유롭습니다.