AI 안전 전문가들 “AI 발전은 빠르고 안전은 뒤처져… 선제적 대응 시급”
‘2025 인공지능 안전 서울 포럼’서 전 세계 안전 기관·기업 모여 위험과 대책 논의 “벤치마크 결함 많아…포괄적·지속적 안전 검증 필요”
“인공지능(AI) 모델 위험성에 대해 지속적으로 예측하고 평가하는 체계와 협력이 시급합니다”
AI 모델 위험 평가 전문기관 METR의 사미 자와르 엔지니어링 총괄이 29일 서울 호텔 나루 서울 엠갤러리 앰배서더에서 열린 ‘2025 인공지능 안전 서울 포럼’에서 이같이 말했다.
한국전자통신연구원(ETRI) 인공지능안전연구소 주관으로 열린 이번 포럼에서는 엠엘커먼스(MLCommons), METR, 앤트로픽, 에포크 AI(Epoch AI), FLI(Future of Life Institute), 옥스퍼드대 등 글로벌 AI 안전 전문기관들이 참여했다. 이들은 한목소리로 현재 AI 모델 안전 검증 체계의 총체적 부실을 경고하면서 안전 생태계 구축을 위한 협력을 강조했다.
이날 자와르는 현행 AI 안전 평가 시스템의 근본적 한계를 지적했다. “사전 배포 테스트만으로는 충분하지 않다”며 “시점이 임의적이고 범위가 제한적이어서 안전에 대한 의미 있는 보증을 제공할 수 없다”고 설명했다. 이어 “출시를 몇 주 앞두고 급히 진행하는 현재의 일회성 평가 방식으로는 절대 안전을 담보할 수 없다”고 했다.
이에 그는 ‘제3자 위험 평가’ 체계를 해법으로 제시했다. 일회성 평가가 아닌 AI 개발사와의 상시 파트너십을 기반 3~6개월 주기로 정기 재평가를 수행하는 것이다. 평가 범위도 확대해 단일 모델이 아니라 프런티어 모델의 개발·배포 전체를 평가 대상으로 삼는다. 기업 내부의 개발 관행, 문제 보고, 스케일링 추세, 향후 모델 고도화 계획 등도 확보한다. 그는 “일회성 보고서가 아니라 다음 평가까지의 위험 전망을 포함한 종합 보고서를 만들어야 한다”며 “AI 안전 커뮤니티 전체가 함께 협력해 신뢰할 수 있는 평가 체계를 구축해야 한다”고 강조했다.
METR는 프런티어 AI 모델의 자율 능력을 평가하는 비영리 연구기관이다. 2022년 설립돼 2023년 12월 독립 비영리법인으로 재편됐다. 오픈AI와 앤트로픽 같은 주요 AI 기업들과 협력해 GPT-4, 클로드 등 모델에 대한 사전 배포 평가를 수행해왔다. AI 시스템의 통제 상실 위험을 초래할 수 있는 재난적 위험 평가에 특화돼 있다.
션 맥그리거 ML커먼스 에이전틱 리드도 AI 업계가 신뢰하는 벤치마크 평가 자체가 근본적 결함을 안고 있다고 지적했다. 그는 “AI 개발사들이 안전성의 근거로 제시하는 벤치마크는 뉴욕타임스 표현처럼 ‘뒤죽박죽’”이라며 “측정 방식이 제각각이고, 사과와 오렌지를 비교하는 격”이라고 비판했다. “겉으로는 100% 안전한 것처럼 보이지만, 실제 위험은 벤치마크로부터 감춰졌고 이는 흔히 업계들 사이에서 관행 되고 있다”고 덧붙였다.
ML커먼스는 125개 이상의 회원사를 보유한 오픈 엔지니어링 컨소시엄이다. 2018년 MLPerf 벤치마크를 시작으로 AI 시스템의 성능과 안전성을 측정하는 업계 표준 벤치마크를 개발해왔다. 2023년에는 AI 안전 워킹그룹을 설립해 챗봇의 안전성을 평가하는 ‘AI루미네이트(AILuminate)’ 벤치마크를 출시했다.
최근 ML커먼스가 AI 안전성을 평가하는 26개 주요 벤치마크들을 점검한 결과 이 평가 도구들 자체에 57가지 결함을 발견했다. 그는 “이러한 결함이 아직 고쳐지지 않은 상태”라며 “개발자들이 평가 시스템의 결함을 숨기고 실제 위험을 감출 수 있다”고 했다. 이어 “미국에서 70만 명이 재무제표 검증에 종사하는 것처럼 AI 안전 분야에도 이와 같은 규모의 독립 검증 생태계 구축이 필요하다”며 “전 세계적으로 역할을 분담하고 협력해 각자 측정 가능한 부분을 맡아야 한다”고 강조했다.
리처드 말라 FLI(Future of Life Institute) AI 안전 전략 수석도 “지금 당장 눈에 보이는 명백한 위험보다 나중에 나타나는 불명확한 위험이 훨씬 더 큰 피해를 일으킬 수 있다”며 “위험이 발생한 후에 사후 대응하는 방식은 사회 전체를 실험 대상과 삼는 것과 같다”고 경고했다. 이어 “국제적 협력 없이는 AI 안전을 확보할 수 없다”고 강조했다. FLI는 실존적 위험 연구에 특화된 비영리 연구기관으로 예측 기반 AI 위험 평가 방법론을 개발하고 있다.
이날 기업들의 안전 대응 사례도 소개됐다. 니타르샨 라즈쿠마르 앤트로픽 국제정책 리드는 현재 클로드에서 적용하고 있는 AI 안전 프레임워크를 소개했다. 앤트로픽이 개발한 ‘클리오(Clio)’는 이용자의 개인정보를 보호하면서 AI 안전을 모니터링할 수 있는 기술이다. 클로드 모델 생산되는 수백만 건의 대화를 요약·군집화하고 사람이 최종 요약만을 보게 하는 구조다. 여러 단계의 프라이버시 강화 과정을 거쳐 민감 정보 비율을 10%에서 0%대로 낮췄다. 라즈쿠마르는 “프라이버시를 보호하면서 악용를 탐지하고 모니터링하는데 노력하고 있다”고 전했다.
한편 한국 인공지능안전연구소는 이날 미국 AI 전문기업 스케일 AI와 업무협약을 맺고 AI 평가 및 안전 연구 고도화를 위해 협력하기로 했다.