전 세계적으로 인공지능(AI)과 접목돼 진행 중인 디지털 전환(DX)은 초거대 생성형 AI의 등장으로 더 빠르게 가속되고 있다. 부분적 혁신을 뛰어넘어 전체적으로 뒤집는 DX를 위한 지렛대 역할이 가능하도록 전체 ICT 인프라·플랫폼에 자리 잡은 데이터-AI 통합이 역삼각형의 쐐기 형상으로 인프라-플랫폼-서비스의 계층을 채우는 거꾸로(flipped) 프레임워크를 만들어가고 있다. 이를 위해 분산된 에지들과 집적된 데이터센터들이 ICT 지렛대의 핵심으로 위치하면서 클라우드 기반으로 연동돼 지구상의 모든 나라들로 확산하고 있다. 이러한 확산 소용돌이 속에서 D-N-A 구도에 따른 데이터, 네트워킹, AI 결합을 강조하면서 데이터에 대한 자주권을 지키는 초거대 AI 파운데이션 모델의 중요성은 지속적으로 강조되는 상황이다.
특히 D-N-A 구도에 따라 에지-코어 클라우드 형태로 산재한 다수 사이트의 데이터를 서로 연결해 하나의 논리적으로 단일화된 데이터 축적·교환을 지원하는 ‘커넥티드 데이터레이크(Connected DataLake)’ 개념에 주목할 필요가 있다. 유사하게 고속의 데이터 연결성 지원에 초점을 맞춘 ‘데이터 패브릭(Data Fabric)’ 또는 데이터 내용 자체의 유연한 분석적 연결에 집중하는 ‘데이터 메시(Data Mesh)’ 개념도 거론되고 있다. 이와 같이 데이터 중심 컴퓨팅의 부상에 따라 데이터를 설명하고 다루는 정교한 수단들이 다양하게 확산하고 있지만, 일반인들의 데이터에 대한 인식은 ‘데이터는 데이터’라는 지극히 단편적인 수준에 머무르는 아쉬움이 많은 실정이다.
따라서 국가적인 데이터 거버넌스 체계화의 새로운 기반으로 ‘연합데이터 시설(Federated Data Facility)’을 신중하게 고려할 시점으로 판단된다. 연합데이터 시설은 분산돼 축적된 데이터에 대한 관할권을 거점 및 분야별로 개별 보유하면서도 유기적인 데이터 교환·유통이 가능하도록 지원해 데이터를 안전하게 공동 활용하는 통합 환경으로 정의된다.
이러한 새로운 기반 시설을 통하여 단순한 데이터 저장·활용 모델에서 벗어나서 체계화된 방식으로 오픈소스 소프트웨어 지향의 ‘K-데이터 공통 플랫폼’의 근간을 세우는 것이 필수적이다. 이를 위해서 호환성 있는 오픈소스 테이블 형식(OTF, Open Table Format)을 활용하는 메타데이터 기반 데이터 축적과 다수 사이트를 연동하는 단일 지향 저장소 개념의 자동화된 데이터 교환을 지원해야 한다. HPC(초거대 컴퓨팅)-AI-HPDA(고성능 데이터 분석) 구도에 따라 연동된 데이터 셋을 고성능으로 활용하는 데이터 레이크하우스(Data LakeHouse) 개념과 연계한 다자간의 자유로운 공동 활용 지원도 중요하다. 또한 규제 혁신에 기반한 개인정보 보호를 포함한 중요(Critical)·민감(Sensitive)·개방(Open) 다계층으로 구분된 데이터 보안 체계와 연합된 공동 활용을 위한 신원(ID) 연합체계와의 통합도 필수적이다.
그러므로 국가적으로 추진 중인 민관협력 형태의 AI 데이터센터와는 별도로 또는 독립적으로 연계하면서 연합데이터 시설의 구축과 운영에 착수해야 한다. 최소 1만 장 규모로 조 단위의 투자가 필요한 AI 데이터센터와는 달리 연합데이터 시설의 국가적인 구축·지속 운영은 사이트별 500억 수준의 비용으로, 점진적으로 확대할 수 있으며, 이를 통해 통합되고 자주적인 데이터 공유 인프라와 공통 플랫폼의 확산을 견인할 수 있다. 또한 데이터 축적은 장기간에 걸친 데이터 수집을 전제로 이루어지게 되므로 ‘데이터 〉 네트워킹 〉 AI’ 순서에 입각한 시간적인 우선순위도 고려된다.
따라서 공동으로 설계‧구축하고 공통적인 방법으로 운영‧활용하는 공용주차장 개념의 공간‧시설을 조성한 다음, 상황에 맞춰 데이터 및 AI 장비를 투입하는 방식이 적절하다고 판단된다. 즉 개별 구축의 파편화를 해소하면서 대용량 전력, 액체 냉각‧방재 등 특수시설, 초고속 보안 네트워크 등을 점차 집중시켜 공간‧에너지 효율성을 높이는 것이다.
또한 소형차, 버스, 트럭, 창고 등으로 비유되는 장비들을 수요에 맞춰 도입해 각자 활용한다. 그러다가 상황이 맞으면 서로 빌려주기도 하면서 서서히 공동 활용으로 넘어가는 D-N-A 생태계의 매개체로 협업형 공용주차장을 확산시키는 것이다. 추가적으로 공동활용 생태계를 지원하는 협력 중심으로 국가가 지정한 민관협력의 창구인 ‘국가센터-전문센터 HPC-AI 협력 거버넌스 구조’를 키워가는 것도 동시에 필요하다.
‘거점별 공용주차장’ 개념으로 최소 200PB 데이터 저장소를 분산 배치하고 이들을 단일화된 데이터 축적 및 자동화된 관제 기반으로 엮어가는 연합데이터 시설을 점차적으로 확대해 구축·운영하면서 국가적인 데이터 축적·유통 전반을 지원하도록 추진해야 한다. 이를 통해 살아있는 데이터에 기반한 X+AI 연구개발 실증의 근간인 산학관연의 개방된 협업을 활성화하고 국가 차원의 초거대 AI 대응 공동 활용 생태계를 안정화시켜 후발 주자들의 추격이 어려워지는 가속도가 발생하는 초격차 시대에 현명하게 대응하는 K-AI 이니셔티브를 주도할 수 있기를 기대한다.
김종원은 GIST 인공지능대학원 원장 겸 AI융합학과 학과장을 맡고 있다. 그는 서울대 제어계측공학과에서 공학박사 학위를 취득한 뒤 AI, 슈퍼컴퓨팅, 미래 네트워크 분야 연구를 해왔다. 현재 GIST 슈퍼컴퓨팅센터 센터장, 미래인터넷포럼 의장, 오픈AI에지(구 MEC)포럼 운영위원장, 한국슈퍼컴퓨팅포럼 부위원장으로 활동 중이다. 대통령직속 국가스마트도시위원회(3·4기) 위원으로도 참여하고 있다. 또 아시아-태평양 네트워크(APAN) 기술협의체에서 기술분야 의장직을 맡고 있다.