AI 안전연구소, 올해 생성형 AI 안전성 평가 체계 구축… “문제는 AI 에이전트”

AI 위험 지도, 오픈소스 테스트 등 구축
“AI 에이전트 사전 안전 검사 어려워”
파리 AI 정상 회의서 합성 콘텐츠 안전 검증 논의

최민석 한국전자통신연구원(ETRI) AI안전연구소 실장은 최근 11일 열린 ‘AI 서울 2025’에서 AI 안전연구소 올해 업무 계획을 발표하고 있다. /구아현 기자

AI 안전연구소가 올해 상반기 연구 인력을 14명에서 21명으로 늘리고 생성형 인공지능(AI) 등 첨단 AI 안전성 평가체계 구축에 집중한다. AI 에이전트의 경우 여러 모델을 동시에 활용하는 복잡한 구조로 인해 평가체계 구축에 시간이 더 필요할 것으로 예상된다.

최민석 한국전자통신연구원(ETRI) AI안전연구소 실장은 최근 11일 열린 ‘AI 서울 2025’에서 “전체 AI 안전이 목표이지만, 현재는 제한된 인원으로 생성형 AI와 첨단 AI에 집중하고 있다”며 “AI 에이전트는 여러 AI 모델을 동시에 호출하면서 서비스 제공하기 때문에 모델 간 상호작용과 복잡한 동작 과정을 평가해야 해서 여러 문제들이 있다”고 말했다. 이어 “역량을 쌓은 후 영역을 확대할 계획”이라고 밝혔다.

최 실장은 AI 에이전트는 개별 모델 평가와는 다른 접근이 필요하고 실시간 동작하는 AI 에이전트를 사전 테스트하는 것이 불가능하다고 설명했다. 그는 “글로벌 규제 체계가 AI 에이전트를 명확하게 정의하지 못하고 있을 뿐만 아니라 여러 AI 모델·시스템이 조합된 형태이기 때문에 책임 주체도 명확히 규정하기 힘들다”며 “기존 평가 방식으로 검증이 어렵다”고 말했다.

이에 AI 안전연구소는 AI 에이전트 평가 체계 구축은 장기 과제로 두고 생성형 AI 등 첨단 AI 안전성 평가 등을 우선 구축하기로 했다. 연구소는 매사추세츠공과대(MIT)에서 운영하는 AI 리스크 저장소(AI Risk Repository) 참고해 올해 한국형 AI 위험 지도를 구축할 계획이다. MIT의 위험 분류체계는 의도성 여부와 위험 유발 주체를 기준으로 하는 ‘포스털 텍소노미(Forstall Taxonomy)’와 산업별 도메인 분류로 구성돼 있으며 1000종 이상의 위험을 정리하고 있다.

아울러 국내 기업들이 활용할 수 있는 오픈소스 테스트 플랫폼도 개발할 계획이다. 영국·미국·싱가포르서는 이미 오픈소스 테스트 도구를 기업이 이용할 수 있도록 공개하고 있다. EU의 AI 법(AI Act) 대응을 위한 가이드라인도 마련해 국내 기업들에 지원할 계획이다. 한국전자통신연구원(ETRI) 최민석 AI안전연구소 실장은 “현재는 영국의 오픈소스 테스트 플랫폼인 ‘Inspect’을 활용하고 있다”며 “오픈 소스 테스트 플랫폼을 만들어 기업에 공개할 목표를 가지고 있으며, 이는 영국도 1년 넘게 준비했으며 시간이 꽤 걸릴 것”이라고 말했다.

주요 연구개발(R&D) 과제로는 올해 딥페이크와 회복탄력성 연구를 진행한다. 4년간 진행되는 연구로 딥페이크 분야에서는 실시간 탐지 기술 개발을 목표로 하고 있으며, 회복탄력성 분야에서는 텍스트와 이미지를 결합한 최신 공격 기법에 대응하는 기술을 연구한다. 이를 위해 연구 인력을 추가 확보한다.

최 실장은 “지난해 11월 27일 출범 기준 연구 인력은 7명으로 시작했으며 올해 1월 신규 채용 등을 통해 14명이 됐다”며 “상반기 21명 규모로 인력을 확대할 계획으로 현재 채용 접수가 마감된 상태”라고 말했다. 연구소는 총 연구 인력 30명 규모로 설립됐다.

AI 안전연구소는 국제 AI안전연구소 네트워크와 연구를 공유하며 협력하고 있다. /구아현 기자

◇ 파리 AI 행동 정상회의서 국제 네트워크와 연구 내용 공유

해외 연구소와 글로벌 협력도 강화하고 있다. 한국을 포함 AI 안전연구소를 설립한 영국, 미국, 일본, 싱가포르, 캐나다와 그에 상응하는 AI 안전 기관을 구축한 프랑스, 유럽연합(EU), 케냐, 호주 등 10개국이 모여 지난해 11월 ‘국제 AI안전연구소 네트워크’를 공식 출범했다.

AI 안전연구소는 이 국제 네트워크와 함께 다국어 안전 검증(테스팅), 사이버공격에 대한 안전 검증, 합성콘텐츠 관련 연구, 리스크 평가 등을 공유하고 협력하고 있다. 최 실장은 “다국어 환경에서 AI 모델의 안전성과 신뢰성을 평가하기 위해 한국어 평가 데이터셋을 개발하고 있다”고 언급했다.

지난 11일(현지시간) 프랑스 파리 ‘AI 행동 정상회의’에서 열린 AI 안전연구소 디렉터 전체 회의에서는 합성 콘텐츠에 대한 각국의 연구 내용을 공유했다. 김명주 AI 안전연구소장은 “이번 파리 회의에서 각국에서 다국어 대형언어모델 안전 검증과 사이버공격에 대한 안전 검증에 대해 국제 공조는 더 구체화하고 강화하는 방향으로 합의했다”며 “합성콘텐츠는 지금까지 공동연구한 내용을 공유했다”고 밝혔다.

한국 AI 안전연구소는 영국과 미국에 비해 연구 규모와 재원에서 차이가 있으며 6개 해외 AI 연구소 가운데서 캐나다와 함께 가장 최근에 설립된 후발 주자다. 영국과 미국이 AI 안전성 평가 및 테스트에서 선도적인 역할을 하고 있다. 이들은 지난해 말에는 오픈AI, 앤스로픽과 업무협약(MOU) 체결을 통해 법적 절차를 거친 공식적인 협력으로 최신 AI 모델 평가했다. 이에 국내 AI 안전연구소도 국내외 AI 기업들과 업무협약을 통해 최신 AI 모델을 평가할 계획이다. 최 실장은 “국내 AI 기업과 협력해 첨단 모델을 평가하는 것을 진행하려고 준비하고 있다”고 밝혔다.

한편 지난해 11월 출범한 국내 AI안전연구소는 지난해 5월에 서울에서 열린 ‘AI 서울 정상회의’에서 AI 안전을 위한 각국의 AI 안전연구소 설치가 주목되면서 만들어졌다. AI 기본법에 따라 설립된 법정기관으로 AI 위험 정의·분석, 정책연구, 평가기준·방법 연구, 기술개발, 국제협력 등을 수행한다. 한국전자통신연구원(ETRI) 산하에 소속돼 있다. 안전정책 및 대외협력실, AI 안전 평가실, AI안전 연구실 3개의 축으로 조직이 구성돼 있다.

올해 주요 업무로는 △AI 위험 지도 마련 △국가 안보 차원의 AI 위험 식별 △EU AI Act GPAI CoP 안내서 제작 △레드티밍 및 프롬프트 상시 수집 체계 마련 △첨단 AI 위험 평가기준·방법 연구 △첨단 AI 위험 관리 프레임워크 개발 △첨단 AI 평가방법 개발 및 수행 △에이전트 기반 안전 검증기법 개발 △R&D 과제 수행 △해외 연구소와의 MOU 체결 등을 추진한다.

구아현 기자 ainews@chosun.com

다른기사 보기

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

내 댓글 모음

예타 폐지 후 ‘사전기획점검’ 도입… KISTEP “속도 확보하되 사업 남발 막을 것”

오픈AI, 챗GPT 쇼핑 리서치 기능으로 이커머스 수요 대응

모빌린트, NPU 기술 앞세워 日 엣지 AI 시장 공략 나서

AMD·자이프라, 대규모 AI 모델 ‘ZAYA1’ 지표 입증

‘Good AI Awards 2025’ 수상 기업 내달 3일 공개… 업계 관심 집중

[덕규의 AIways] AI 동물이 마스코트가 될 수 있었던 이유

[AI 버블 ②] ‘혁명 혹은 거품’ 현실 직면하는 2026년 AI 시장

포티투마루, 'AX 성공방정식 2026'서 AX 혁신 전략 논한다

AI 안전연구소, 올해 생성형 AI 안전성 평가 체계 구축… “문제는 AI 에이전트”

AI 위험 지도, 오픈소스 테스트 등 구축
“AI 에이전트 사전 안전 검사 어려워”
파리 AI 정상 회의서 합성 콘텐츠 안전 검증 논의

AI 위험 지도, 오픈소스 테스트 등 구축 “AI 에이전트 사전 안전 검사 어려워” 파리 AI 정상 회의서 합성 콘텐츠 안전 검증 논의

AI 위험 지도, 오픈소스 테스트 등 구축
“AI 에이전트 사전 안전 검사 어려워”
파리 AI 정상 회의서 합성 콘텐츠 안전 검증 논의