AI 정책 봇물 속 데이터 정책은 미흡

실질적인 AI 발전, 데이터 정책 뒷받침돼야 데이터 규제에 AI 기업 해외로 눈길 돌려 미래 AI 시대 대비해 체계적인 정책 마련해야

2025-06-25     유덕규 기자
/일러스트=챗GPT 달리.

정부와 기업들이 앞다퉈 인공지능(AI) 정책·방향을 발표하고 있지만, 정작 AI 발전의 핵심인 데이터 정책은 상대적으로 소외받고 있다는 지적이 나오고 있다.

25일 업계에 따르면 지난해 12월 ‘인공지능 발전과 신뢰 기반 조성 등에 관한 기본법(AI 기본법)’이 국회 본회의를 통과한 이후 AI 관련 정책 발표가 잇따르고 있다. 업계 관계자들은 AI 개발에만 치중하고 데이터 정책이 뒤따르지 않으면 실질적인 AI 발전을 기대하기 어렵다고 우려하고 있다.

앞서 데이터 부족으로 인한 AI 프로젝트 실패 사례는 이미 여러 차례 보고됐다. 대표적인 사례로는 의료계를 뜨겁게 달궜던 MD Anderson 암센터와 IBM의 ‘왓슨 포 온콜로지(Watson for Oncology)’ 프로젝트다.

지난 2013년 시작된 이 프로젝트는 6200만달러(약 800억원)가 투자된 대형 AI 임상 지원 사업이다. 이 사업은 구조화되지 않은 의료 기록(데이터), 시스템 통합 실패 및 비정형 데이터 처리 한계 등으로 2016년 9월 파일럿 단계에서 공식 중단됐다.

프로젝트를 이끌었던 린다 친(Lynda Chin) 박사는 “구조화되지 않고 표준화되지 않은 의무기록을 이용하여 AI 모델을 학습시키는 것과 다양한 형태의 의료 데이터를 수집하고 통합하는 것이 매우 어려웠다”며 “여러 보고서가 의무기록 연동 실패와 데이터 품질·통합 문제를 주요 실패 요인이었다”고 설명했다.

데이터에 대한 정책이 필요하다는 지적은 계속해서 나오고 있다. 특히 의료AI 업체들은 데이터에 대한 제도적 개선이 필요하다는 목소리를 계속해서 내고 있다. 의료AI 업계 관계자는 “AI라는 나무가 자라려면 데이터라는 토양이 먼저 갖춰져 있어야 하는데, 현재 정책이나 방향을 보면 AI에 초점이 너무 맞춰져 있다”며 “AI 기업들이 잘 성장하고 앞으로 나아가기 위해서는 오히려 데이터에 대한 가이드라인을 제시해 이들의 AI가 잘 학습할 수 있도록 지원하는 단계가 필요하다”고 지적했다. 이어 “가이드라인 같은 것들이 제도화돼 있지 않아 AI 업체들이 데이터를 구매하는데 있어 기관이나 병원들은 회사의 지분을 요구하거나 제각각의 가격을 부른다”며 “오히려 제도가 잘 확립돼 있는 해외의 기관들이나 병원에서 ‘외국인’들의 데이터를 구해와 학습하고 서비스를 해외로 돌리는 사례도 있다”고 덧붙였다.

국내 데이터 정책의 현실은 더욱 어렵다. 개인정보보호법, 정보통신망법, 신용정보법 등 각종 법률이 중첩되면서 기업들의 데이터 활용이 제한적인 상황이다.

행정안전부에 따르면 제4차 공공데이터의 제공 및 이용 활성화에 관한 기본계획(2023~2025)을 통해 지난해까지 누적 217개 국가중점데이터가 개방됐다. 하지만 한 AI 스타트업 대표는 “공공데이터는 늘어났지만 실시간 데이터나 개인정보가 포함된 데이터는 여전히 접근이 어렵다”며 “같은 데이터라도 기관이나 병원마다 형식이 달라 상호 연계·활용이 거의 불가능하다”고 지적했다.

반면 해외 주요국들은 데이터를 ‘경제적 자산’으로 인식하고 활용 정책을 적극 추진하고 있다.

EU는 2021년 11월 발효된 데이터 거버넌스법(Data Governance Act)을 통해 기업과 개인, 공공 부문의 데이터 공유를 촉진하는 법적 구조를 마련했다.

중국은 지난 2023년 10월 25일 국가데이터국을 공식 출범시켜 데이터 자원의 공유·개발·이용을 총괄하도록 했다. 중국의 2023년 데이터 생산 총량은 32ZB(제타바이트)로 전 세계 생산량 120ZB의 26.7%를 차지했다. 중국은 데이터를 ‘제5의 생산요소’로 규정하고, 데이터 재산권을 보유권, 사용권, 경영권으로 분리한 운영 메커니즘을 구축했다.

미국도 오픈 데이터 정책을 통해 공공데이터를 적극 개방하고 있다.

미래 AI 시대에 맞춰 멀티모달 추론에 맞는 데이터 정책을 체계적으로 마련해 나가야한다는 목소리도 높아지고 있다.

김동환 포티투마루 대표는 “우리는 지금도 멀티모달 추론 관련해서 COT(Chain of Thought) 기반 데이터 구축을 실험하고 있는데, 문제는 한국어로 된 양질의 COT 데이터가 거의 없다”면서 “추론형 AI를 제대로 만들기 위해선 고품질의 한국어 COT 데이터나 합성 데이터가 필수인데, 이건 정부 차원에서 전략적으로 구축해 줘야 하는 영역이기도 하다”고 지적했다. 이어 “그동안 ‘데이터 댐’을 추진하다가 정책적으로 중단되면서, 현재 한국은 명확한 데이터에 대한 정책은 부재 상태”라며 “지금이라도 국가적으로 AI 추론과 멀티모달 분야에 필요한 고도화된 데이터셋을 체계적으로 마련해야, 산업 전반에서 진짜 쓸 수 있는 멀티모달 AI가 가능해질 것으로 생각한다”고 덧붙였다.