최종편집:2025-11-26 07:49 (수)
실시간
신승원 KAIST 교수 “파편화된 정보 연결하는 ‘그래프’ 데이터 분석 핵심”

신승원 KAIST 교수 “파편화된 정보 연결하는 ‘그래프’ 데이터 분석 핵심”

  • 기자명 유덕규 기자
  • 입력 2025.06.26 17:28
  • 수정 2025.06.26 18:00
  • 0
  • 본문 글씨 키우기
이 기사를 공유합니다

개체와 개체 간 관계를 그래프 형태로 표현하는 ‘지식 그래프’ 활용
LLM 등장에도 한계… 정보를 지식 그래프로 저장한 그래프 RAG 제시

26일 서울 역삼 조선팰리스에서 진행된 ‘SIS 2025’에서 신승원 카이스트(KAIST) 전기 및 전자공학부 교수가 기조 연설을 진행하고 있다. /유덕규 기자
26일 서울 역삼 조선팰리스에서 진행된 ‘SIS 2025’에서 신승원 카이스트(KAIST) 전기 및 전자공학부 교수가 기조 연설을 진행하고 있다. /유덕규 기자

“파편화된 정보를 구조화된 정보로 만들고 싶었습니다. 정보의 연결이라고 부르죠. 굉장히 많은 파편의 정보들이 있는데 이거를 연결시켜가지고 어떤 구조화된 정보들로 만들고자 했습니다. 구조화하기 위해서 연결할 때 저는 그래프를 사용했습니다. 세상의 모든 연결은 그래프로 표현할 수 있다고 믿었습니다”

신승원 KAIST 전기 및 전자공학부 교수의 말이다. 그는 파편화된 정보를 구조화된 정보로 바꾸는 데 그래프를 활용할 수 있었다고 설명했다.

26일 서울 역삼 조선팰리스에서 진행된 S2W의 연례 기술 컨퍼런스 ‘SIS 2025’가 진행됐다. 이날 행사에는 서상덕 S2W 대표, 신승원 S2W 공동창업자 겸 카이스트 전기및전자공학부 교수 등이 참석했다.

행사 기조연설을 맡은 신 교수는 2009년부터 미국에서 진행한 사이버 위협 분석 경험을 바탕으로, 방대한 데이터를 효율적으로 분석하는 방법론을 소개했다.

앞서 신 교수는 2009년 미국 SRI 인터내셔널에서 미군을 위한 클라우드 구축 프로젝트인 ‘달파(DARPA) MRC 프로젝트’에 참여했다. 이 과정에서 그는 매일 쏟아지는 사이버 공격을 분석해야 했다. 봇넷, 악성코드 등 새로운 위협이 나타날 때마다 구글과 트위터를 뒤지며 정보를 수집하고 보고서를 작성하는 일의 연속이었다.

신 교수는 “새로운 봇이 나왔다고 하면 구글 검색, 트위터 검색, 데이터베이스 검색을 반복했다”면서 “보고서를 제출하면 또 다른 위협이 나타났고 끝이 없었다”고 설명했다.

이런 반복적인 수동 작업에 지친 신 교수는 ‘정보의 연결’에서 해답을 찾았다고 강조했다. 그가 주목한 것은 ‘지식 그래프(Knowledge Graph)’ 기술이었다.

지식 그래프는 개체(entity)와 개체 간의 관계(relation)를 그래프 형태로 표현하는 기술이다. 예를 들어 ‘다빈치-그렸다-모나리자’처럼 ‘주어-서술어-목적어’ 형태로 정보를 구조화한다.

신 교수는 “파편화된 문서들로는 알 수 없는 숨겨진 관계를 지식 그래프로 찾을 수 있다”며 “단순 검색으로는 복잡한 질의에 답할 수 없지만, 지식 그래프는 가능하다”고 설명했다.

실제로 그의 팀은 지난 2012~13년 미국 달파의 MEMEX 프로젝트에서 지식 그래프를 활용해 인신매매범을 추적하는 데 성공했다. 다크웹 데이터 6800만 건을 분석해 피해자와 가해자 간의 연결고리를 찾아냈고, 워싱턴 경찰은 이를 통해 다수의 범인을 검거했다.

이어 신 교수 팀은 2014~15년 다크웹 3만7000개 도메인에서 2700만 페이지를 수집했다. 신 교수는 “다크웹에서는 악성코드 거래, 제로데이 공격 정보 공유 등 사이버 범죄 관련 활동이 활발했다”고 설명했다.

특히 그는 다크웹 데이터와 암호화폐 거래 데이터를 결합해 사이버 범죄자들의 자금 흐름을 추적했다. 특히 NSA 해킹 도구를 유출한 ‘섀도 브로커’ 그룹과 랜섬웨어 공격자들 간의 연결고리를 밝혀냈다.

지식 그래프 구축이 마냥 쉬웠던 건 아니었다. 지식 그래프 구축의 가장 큰 어려움은 ‘온톨로지(ontology)’ 구성이었다. 비정형 데이터를 그래프로 변환하기 위한 규칙을 일일이 만들어야 했고, 신 교수 팀은 1000개가 넘는 규칙을 수작업으로 만들었다.

시간이 흐르고 2020년대 들어 딥러닝과 대형언어모델(LLM)이 등장하면서 상황이 바뀌었다. 복잡한 온톨로지 구성과 개체명 인식(NER), 관계 추출 작업을 LLM이 대신할 수 있게 됐다.

하지만 LLM에도 한계가 있었다. 할루시네이션(환각) 현상과 최신 정보 부족 문제가 대표적이다. 이를 보완하기 위해 등장한 것이 검색증강생성(RAG)이다. 다만 일반 RAG는 단순 검색과 크게 다르지 않았다.

신 교수가 제시한 해법은 ‘그래프 RAG’다. 문서를 벡터 데이터베이스에 저장하는 일반 RAG와 달리, 그래프 RAG는 정보를 지식 그래프 형태로 저장한다.

신 교수는 “일례로 트랜스포머 논문의 주저자가 창업한 회사를 찾는 질문에 일반 RAG는 답할 수 없었다”며 “정보가 여러 문서에 흩어져 있기 때문이었다. 하지만 그래프 RAG는 ‘트랜스포머-주저자-아시시 바스와니-창업-에센셜A’라는 연결고리를 찾아 정답을 제시한다”고 설명했다.

마이크로소프트(MS)도 최근 그래프 RAG를 도입했다. 신 교수에 따르면 2023년부터 그래프 RAG 관련 연구가 기하급수적으로 증가하고 있으며, 이는 차세대 AI 시스템의 핵심 기술로 자리잡고 있다.

신 교수는 그래프 기술이 가짜뉴스 탐지(91% 정확도), NFT 사기 탐지, 크리덴셜 스터핑 공격 예측 등 다양한 분야에 활용될 수 있다고 강조했다.

그는 “지식 그래프는 특정 분야를 깊이 연구한 박사과정 학생 같고, LLM은 많은 것을 아는 석사 학생 같다”며 “둘을 결합하면 서로의 약점을 보완할 수 있다”고 강조했다. 아울러 “세상에는 많은 그래프가 있고, 이를 활용해 데이터를 분석하면 몰랐던 정보도 알 수 있다”면서 “파편화된 정보를 연결하는 것이 데이터 분석의 핵심”이라고 덧붙였다.

저작권자 © THE AI 무단전재 및 재배포 금지
관련기사
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
모바일버전