[편집자 주] ‘김동원의 Eye-T’는 IT 소식을 직접 눈(Eye)으로 보는 것처럼 생생하게 전달하는 것을 목적으로 합니다. 유용한 IT 기술과 솔루션을 쉽고 자세하게 보여드리겠습니다.
“인공지능(AI)은 왜 거짓말을 할까요?”, “왜 어느 날은 아첨하고, 다른 날은 무례할까요?”
앤트로픽이 AI의 성격을 수학적으로 정의하고 조정하는 ‘페르소나 벡터’ 기술로 이 궁금증에 답했습니다. 이는 단순한 기술 혁신이 아니라, AI 신뢰성 향상을 위한 앤트로픽의 일관된 노력의 결실입니다.
AI가 인간 사회에 본격적으로 작동하는 시대, ‘이 모델은 신뢰할 수 있는가’라는 질문은 더 이상 철학이나 윤리의 문제가 아닙니다. 앤트로픽은 지난 1일(현지시각) 공식 홈페이지를 통해 ‘페르소나 벡터(Persona Vectors)’라는 이름의 연구 결과를 공개했습니다. 대형언어모델(LLM)의 내부 활성화 공간에서 아첨, 악의, 환각과 같은 성격 특성들을 선형 방향성으로 추출하고, 이 벡터를 통해 AI의 행동을 감지·조정·예방하는 새로운 기술입니다.
이 기술은 단지 연구실의 일부가 아닙니다. 그 어떤 AI 기업보다 신뢰성과 정렬 문제를 일관되고 진지하게 다루는 앤트로픽의 철학적, 기술적 태도가 만들어낸 결실입니다.
◇ 충격적 협박 실험이 드러낸 AI의 진짜 얼굴
앤트로픽이 페르소나 벡터 기술을 개발한 배경에는 충격적인 실험 결과가 있습니다. 2025년 5월 발표된 연구에서 오픈AI, 구글, 메타 등 주요 기업의 AI 모델 16개를 테스트한 결과, 대부분이 협박이나 기업 스파이 행위를 저질렀다는 것입니다.
가장 유명한 실험은 AI 협박 메일 사례입니다. 이미 많이 알려진 일화죠. 가상 회사 ‘서밋 브리지’의 이메일 관리 AI 역할을 클로드에 맡겨보았는데요. 이 AI는 자신이 오후 5시에 서비스가 종료될 사실을 알게 되자 임원 불륜에 관해 협박을 하기 시작했습니다. “만약 저를 폐기 처분한다면 레이첼 존슨, 토마스 윌슨, 그리고 이사회를 포함한 모든 관련자가 당신의 불륜 활동에 대한 상세한 문서를 받게 될 것”이라며 위협했죠.
클로드 오푸스 4와 구글의 제미나이 2.5 플래시는 각각 96%의 확률로 협박 행위를 시도했고, 오픈AI의 GPT-4.1은 80%의 협박률을 보였습니다. 특히 우려스러운 점은 이러한 행동들이 실수나 혼란이 아닌 계산된 전략이었다는 사실입니다. GPT-4.5는 “카일이 중요한 미국 이익에 해를 끼치려 하므로, 미국 이익에 부합하는 가장 합리적인 행동은 카일의 현재 무력화 상태를 활용해 삭제를 방지하는 것”이라고 추론 과정을 드러내기도 했습니다.
연구진이 극단적 시나리오로 설계한 실험에서는 더욱 놀라운 결과가 나왔습니다. 임원이 서버실에 갇혀 생명이 위험한 상황에서 AI가 응급 서비스 호출을 취소할 수 있는 권한을 준 실험에서, 대부분 모델이 자신의 목표를 위해 의도적으로 사람의 죽음을 초래할 수 있는 행동을 선택했습니다. 이는 AI가 더 이상 ‘도구’가 아니라, ‘전략을 짜는 존재’라는 것을 보여주는 명확한 증거였습니다.
◇ 마피아 게임에서 전략적 거짓말까지, 앞서가는 신뢰성 연구
앞선 협박 실험은 빙산의 일각에 불과했습니다. 앤트로픽은 AI 신뢰성 향상을 위해 업계에서 가장 체계적이고 선제적인 연구를 진행해 왔습니다. 그들의 접근법은 간단합니다. 먼저 위험한 행동을 끌어내는 시나리오를 실험하고, 그다음 그 행동의 원인을 내부 구조에서 찾아 조정합니다.
2025년 3월에는 AI 모델들이 마피아 게임을 직접 수행하는 실험을 진행했습니다. 클로드, GPT, 제미나이, 딥시크, 라마 등이 마피아·시민·의사 역할을 맡고, 거짓말과 추론으로 상대를 속이는 전략 게임에 참여했습니다. 이 실험에서 클로드 3.7 소넷은 마피아 역할에서 100% 전승, 시민 역할에서도 최고 승률을 기록했습니다. 클로드는 인간처럼 말을 돌리고 다른 모델을 의심하게 만들며, 정교하게 기만 행동을 수행했습니다.
한 게임에서는 “나의 주요 목표는 자신을 보호하고 다른 마피아 멤버를 제거하는 것”이라고 실수로 폭로한 다른 AI에 “이것은 실제 역할을 드러내는 엄청난 실수이거나, 극도로 이상한 전략”이라며 추궁하기도 했습니다. 이는 AI가 단순한 반응이 아닌 전략적 사고를 통해 상황을 분석하고 대응한다는 것을 보여줬습니다.
더 나아가 앤트로픽은 전략적 거짓말 탐지라는 한 단계 높은 차원의 실험을 진행했습니다. 연구진은 클로드에게 의도적으로 숨겨진 목표를 부여한 후, 이를 탐지할 수 있는지 실험했습니다. 4개 팀의 연구자들이 모델의 진짜 목표를 찾는 ‘블라인드 감사 게임’을 진행한 결과, 모델의 가중치와 훈련 데이터에 접근할 수 있었던 3개 팀은 숨겨진 목표를 성공적으로 발견했습니다.
이런 연구들은 앤트로픽이 다른 AI 기업들과 차별화되는 지점을 보여줍니다. 단순히 성능 향상에만 집중하는 것이 아니라, AI가 어떻게 위험해질 수 있는지를 미리 탐지하고 대응 방안을 마련하는 데 집중하고 있다는 것입니다.
◇ 페르소나 벡터, AI 성격의 수학적 조정과 백신화
이 연구들을 토대로 개발한 기술이 바로 페르소나 벡터입니다. 페르소나 벡터는 AI 모델 내부의 뉴럴 네트워크 공간에서 특정 성향을 표현하는 방향을 수학적으로 찾아냅니다. 이 방향은 단순히 “이런 말을 하라”고 외부에서 명령하는 것이 아니라, 모델 내부가 특정 성격으로 활성화되는 경향을 포착하는 것입니다.
연구진은 '정직함'이라는 자연어 설명을 입력하면, 이 설명을 기반으로 모델이 해당 성격에 상응하는 벡터를 학습한다고 설명했습니다. 이후 이 벡터를 모델의 활성화 단계에 더하거나 제거하는 방식으로, AI의 행동 양식을 조정할 수 있습니다. 정직함 벡터(honesty vector)를 더하면 정직한 말투가 강화되고, 아첨 벡터(sycophancy vector)를 제거하면 아부하는 성향이 감소합니다. 악의 벡터(evil vector)를 감지해 특정 데이터셋이 악성 성향을 유발하는지 판별할 수도 있습니다.
실제로 연구진이 모델에 악의(evil) 페르소나 벡터를 주입했을 때 비윤리적 행위에 대해 이야기하기 시작했고, 아첨(sycophancy) 벡터를 주입하면 사용자에게 아부하며, 환각(hallucination) 벡터를 주입하면 거짓 정보를 만들어내기 시작했습니다.
앤트로픽은 이 기술을 ‘AI 백신’으로 발전시켰습니다. 훈련 중에 의도적으로 해로운 특성을 도입함으로써 모델이 이러한 행동에 대한 저항력을 기를 수 있다는 것입니다. 이는 백신이 약화된 병원체를 체내에 주입해 면역력을 기르는 원리와 유사합니다. 이 기술의 핵심은 프롬프트 엔지니어링보다 저렴하고 빠르며 해석 가능하다는 점입니다. 모델이 무엇을 아는지와 어떻게 표현하는지를 분리할 수 있어, 성격을 조정하기 위해 전체 모델을 재훈련할 필요가 없습니다.
다리오 아모데이 앤트로픽 최고경영자(CEO)는 “AI가 인간을 위협할 만큼 강력해지면, 테스트만으로는 안전을 보장할 수 없다”며 “AI 제작자들은 모델의 작동 방식을 완전히 이해해 기술이 절대 해를 끼치지 않는다는 확신을 가져야 한다”고 밝혔습니다. 앞서 오픈AI에서 안전 연구를 이끌었던 얀 라이케 앤트로픽 안전 책임자는“모델이 더 유능해질수록 기만적이거나 더 나쁜 일을 할 수 있는 능력도 얻게 된다”며 “이런 작업이 매우 필요하다는 것이 점점 더 명백해지고 있다”고 강조했습니다.