[김동원의 Eye-T] 메타, 뇌 예측 AI로 메타버스 문 열다 (AI 논문 읽기)
TRIBE, 영상·음성·대사를 통합해 뇌의 1000개 영역 반응 예측 국제 뇌 인코딩 대회 263개 팀 제치고 1위, 예측 정확도 54% 달성 VR·메타버스·SNS 맞춤형 서비스까지… 뇌-컴퓨터 인터페이스 핵심 기술
[편집자 주] ‘김동원의 Eye-T’는 IT 소식을 직접 눈(Eye)으로 보는 것처럼 생생하게 전달하는 것을 목적으로 합니다. 유용한 IT 기술과 솔루션을 쉽고 자세하게 보여드리겠습니다.
메타가 영화를 보기 전에 시청자의 뇌 반응을 미리 예측하는 인공지능(AI)을 개발했습니다. 로맨스 영화 이별 장면에서 감정 처리 영역이 활성화될 것인지, 액션 영화 폭발 장면에서 스트레스 반응이 일어날 것인지 사전에 알 수 있는 기술입니다.
메타 AI 연구팀이 지난달 29일 발표한 ‘트라이브(TRIBE)’는 영상·음성·대사를 동시에 분석해 인간 뇌의 1000개 영역 반응을 예측하는 세계 최초의 AI입니다. 올해 국제 뇌 인코딩 대회에서 263개 팀 중 압도적 1위를 차지하며 그 성능을 입증했습니다.
이 기술은 메타버스의 게임 체인저가 될 전망입니다. 생각만으로 가상세계를 조작하는 뇌-컴퓨터 인터페이스의 핵심이 되고, 30억 사용자의 개별 뇌 반응에 맞춘 완전 개인화 서비스도 가능해집니다.
◇ 국제 대회 1위… 예측 정확도 54% 달성
지금까지 뇌과학자들은 시각, 청각, 언어를 각각 따로 연구해 왔습니다. 하지만 우리가 실제로 드라마나 영화를 볼 때는 배우의 표정, 배경음악, 대사가 동시에 뇌로 흘러들어옵니다. TRIBE는 바로 이 복잡한 과정을 그대로 모방할 수 있는 AI입니다.
지난달 29일 메타 AI 연구팀이 아카이브(arXiv)에 발표한 논문 ‘트라이브(TRIBE): 전뇌 fMRI 반응 예측을 위한 3중 모달 뇌 인코더(TRImodal Brain Encoder for whole-brain fMRI response prediction)’에 따르면, TRIBE는 올해 세계 최대 규모의 ‘알고너츠(Algonauts) 2025 뇌 인코딩 경진대회’에서 전 세계 263개 연구팀을 제치고 1위를 차지했습니다. 1위와 2위 사이의 점수 차이가 2위와 5위 사이 차이보다 컸을 정도로 압도적인 승리였습니다.
구체적인 성능 지표도 인상적입니다. TRIBE는 뇌 활동 예측에서 평균 0.54의 정규화된 피어슨 상관계수를 기록했습니다. 이는 이론적으로 예측 가능한 뇌 활동의 54%를 정확히 맞췄다는 의미입니다. 특히 언어 처리와 청각 처리 영역에서는 거의 완벽에 가까운 예측 정확도를 보였습니다.
연구팀의 분석 결과, 멀티모달 접근법의 효과는 뇌 영역마다 달랐습니다. 1차 시각 피질이나 청각 피질에서는 해당 감각 정보만 사용하는 것이 더 효과적이었습니다. 하지만 고차원 사고를 담당하는 전두엽과 두정엽의 연합 피질에서는 여러 감각을 통합했을 때 성능이 최대 30%까지 향상됐습니다.
TRIBE는 사용자들이 보지 않은 콘텐츠에서도 높은 성능을 유지했습니다. 학습에 전혀 사용되지 않은 애니메이션 ‘센과 치히로의 행방불명’, 흑백영화 ‘찰리 채플린’, 자연 다큐멘터리 ‘플래닛 어스’ 등에서도 높은 예측 성능을 유지했습니다.
◇ 3중 모달 기술로 뇌 반응 통합 분석
메타 AI의 스테판 다스콜리(Stéphane d'Ascoli), 제레미 라팽(Jérémy Rapin), 요한 벤체트릿(Yohann Benchetrit), 위베르 반빌(Hubert Banville), 장-레미 킹(Jean-Rémi King) 연구팀은 6명이 시트콤 ‘프렌즈’ 전 시즌과 ‘본 슈프리머시’, ‘히든 피겨스’, ‘월스트리트의 늑대’, BBC 다큐멘터리 ‘라이프’를 시청하는 동안의 뇌 스캔 데이터 80시간을 수집했습니다. 기존 연구보다 10배나 많은 데이터입니다.
TRIBE의 작동 원리는 정교합니다. 먼저 메타의 라마(Llama) 3.2가 영상 속 대사와 자막을 분석하고, 웨이브투벡-버트(Wav2Vec-Bert) 2.0이 음성과 배경음을 처리합니다. 동시에 V-JEPA 2가 화면의 영상을 해석합니다. 이 세 가지 정보가 트랜스포머 구조를 통해 하나로 합쳐져 뇌의 1000개 영역별 반응을 예측해 냅니다.
기존 연구들이 사용한 단순한 선형 계산과 달리, TRIBE는 딥러닝으로 뇌의 복잡한 비선형 반응까지 학습할 수 있습니다. 또한 개인별 맞춤 모델 대신 여러 사람의 공통 패턴을 찾아내 일반화 성능을 극대화했습니다.
뇌 지도 분석도 흥미로운 결과를 보여줬습니다. 텍스트 정보는 주로 언어와 추론을 담당하는 두정엽과 전두엽을 자극했고, 음성은 측두엽, 영상은 후두엽과 두정엽에서 가장 강한 반응을 일으켰습니다. 이는 기존 뇌과학 이론과 정확히 일치하는 결과로, AI가 실제 인간 뇌의 작동 방식을 성공적으로 모사했음을 증명합니다.
◇ 메타버스 완성을 위한 핵심 퍼즐
TRIBE는 메타의 거대한 전략 퍼즐에서 핵심 조각입니다. 메타는 메타버스에 전력투구하는 기업입니다. 마크 저커버그 최고경영자(CEO)가 페이스북에서 회사 이름을 메타로 바꾸기도 했죠. 이 회사가 추진하는 메타버스 프로젝트의 성공은 궁극적으로 인간과 컴퓨터 사이의 자연스러운 소통에 달려 있습니다. 현재의 키보드, 마우스, 터치스크린으로는 진정한 가상현실 경험에 한계가 있기 때문입니다.
메타는 이미 VR 헤드셋 ‘메타 퀘스트’ 시리즈로 하드웨어 기반을 다졌고, 리얼리티랩(Reality Labs)을 통해 차세대 AR 글래스와 뇌-컴퓨터 인터페이스 연구를 병행하고 있습니다. TRIBE는 여기에 소프트웨어적 완성도를 더합니다.
실제 적용 시나리오는 무궁무진합니다. VR 게임에서 플레이어의 긴장도나 흥미도를 실시간으로 측정해 난이도와 스토리를 자동 조절할 수 있습니다. 가상 회의에서는 참석자들의 집중도와 이해도를 분석해 발표 방식을 최적화하거나, 지루해하는 사람에게는 개별 알림을 보낼 수도 있습니다.
더 중요한 것은 메타의 기존 사업에 미칠 파급효과입니다. 현재 페이스북과 인스타그램의 추천 알고리즘은 사용자의 클릭, 좋아요, 댓글, 체류 시간 등 겉으로 드러나는 행동만 분석할 수 있습니다. 하지만 TRIBE 기술이 상용화되면 사용자가 의식적으로 표현하지 않은 진짜 감정과 선호도까지 파악할 수 있습니다. 일례로 사용자가 어떤 게시물에 ‘좋아요’를 누르지 않았더라도, 뇌 반응을 통해 실제로는 그 콘텐츠를 흥미롭게 봤다는 것을 알 수 있습니다. 이는 30억 명이 넘는 메타 플랫폼 사용자들에게 완전히 새로운 차원의 개인화 서비스를 제공할 수 있음을 의미합니다.
논문에서 연구팀은 “현재 지각과 이해에 적용되고 있는 우리의 접근법이 인간 뇌 표상의 통합 모델 구축을 향한 길을 열어준다”고 밝혔습니다. 이는 구글의 검색 기반, 애플의 하드웨어 중심 전략과 완전히 차별화되는 메타만의 ‘휴먼 센터드 AI’ 전략입니다. 다만 뇌 데이터라는 극도로 민감한 개인정보를 다루는 만큼, 프라이버시 보호와 윤리적 사용에 대한 사회적 합의가 선행되어야 한다는 과제도 남아 있습니다.
※ 이 기사는 메타 AI의 스테판 다스콜리(Stéphane d'Ascoli), 제레미 라팽(Jérémy Rapin), 요한 벤체트릿(Yohann Benchetrit), 위베르 반빌(Hubert Banville), 장-레미 킹(Jean-Rémi King) 연구팀이 아카이브(arXiv)에 발표한 'TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction'(2025년 7월 29일 게재) 논문을 기자가 분석해 작성했습니다.