최종편집:2025-11-26 07:49 (수)
실시간
구글, 의료 AI에 ‘진단 금지선’ 그었다… “AI는 청취, 의사는 진단”

구글, 의료 AI에 ‘진단 금지선’ 그었다… “AI는 청취, 의사는 진단”

  • 기자명 김동원 기자
  • 입력 2025.08.13 08:52
  • 수정 2025.08.13 08:54
  • 0
  • 본문 글씨 키우기
이 기사를 공유합니다

‘가드레일 AMIE’ 개발, AI는 증상 청취·정리만 담당하는 역할 분담
실제 환경 모방한 평가서 기존 의료진 대비 우수한 성능 보여
의료진 훈련 부족·AI 장황함 등 실용화 위해 해결할 과제 많아

가상 임상시험에서 g-AMIE가 동일한 가드레일 제약 조건 하에서 작업한 의사(PCP), 간호사(NP), 의사조무사(PA) 그룹보다 우수한 성과를 보였다. /구글리서치 블로그 캡처
가상 임상시험에서 g-AMIE가 동일한 가드레일 제약 조건 하에서 작업한 의사(PCP), 간호사(NP), 의사조무사(PA) 그룹보다 우수한 성과를 보였다. /구글리서치 블로그 캡처

구글이 의료 AI에 ‘넘지 말아야 할 선’을 그어 안전한 활용법을 제시했다. AI는 환자 이야기만 듣고, 의사는 진단만 내리는 방식이다.

구글 리서치와 딥마인드는 12일(현지시간) 블로그에 ‘대화형 진단 AI에 대한 의사 중심의 감독 체계 구축(Towards physician-centered oversight of conversational diagnostic AI)’ 연구를 발표하며, AI가 직접 진단하거나 치료 계획을 제시하지 않고, 의사의 감독 하에 환자 정보 수집과 정리만 담당하는 ‘가드레일 AMIE(g-AMIE)’ 시스템을 선보였다.

이번 연구에서 구글은 AI가 환자와 대화해 증상과 병력을 듣고 의사가 검토하기 쉬운 형태로 정리하되, 최종 진단과 치료는 반드시 의사가 맡도록 했다. 실제 테스트에서도 효과가 입증됐다. 가상 임상시험에서 g-AMIE는 같은 조건에서 일한 의사, 간호사, 의사조무사들보다 좋은 평가를 받았다. 의사들은 g-AMIE가 만든 진단 자료를 더 선호했고, 환자 역할을 한 사람들도 g-AMIE와의 대화를 더 만족스러워한 것으로 나타났다.

◇ 의료진 부족 문제 해결할 ‘안전한 AI’ 등장

이번에 개발한 g-AMIE는 AI가 환자에게 직접 진단을 내리지 않는다. 환자와 대화하며 “언제부터 아프셨나요?”, “다른 증상은 없나요?” 같은 질문을 통해 정보를 모은다. 이후 그 내용을 의사가 보기 쉽게 정리해서 넘겨준다.

작동 방식은 3단계다. 먼저 기본적인 증상과 병력을 묻고, 두 번째로 의심되는 질병을 확인하기 위한 구체적 질문을 한다. 마지막에는 환자가 궁금해하는 것들에 답한다. 이 과정에서 ‘가드레일’이라는 안전장치가 AI가 진단이나 치료법을 말하지 못하게 막는다.

모인 정보는 병원에서 쓰는 표준 양식으로 정리된다. 의사는 전용 화면에서 이 자료를 보고 필요하면 수정한 뒤, 최종 진단과 치료 방향을 정한다.

이 방식의 장점은 의사가 실시간으로 환자를 만나지 않아도 된다는 점이다. AI가 먼저 환자 이야기를 들어두면, 의사는 나중에 여러 환자 사례를 한 번에 검토할 수 있다. 그만큼 의사는 정해진 시간 내에서 더 많은 환자를 치료할 수 있다. 의료진 부족 문제를 해결할 수 있는 것이다.

◇ 실제 임상 환경 모방한 평가에서 우수한 성능 입증

연구진은 g-AMIE의 성능을 검증하기 위해 60개의 다양한 의료 시나리오를 활용한 가상 임상시험을 실시했다. 이는 의료진 교육과 평가에 사용되는 객관적 구조화 임상시험(OSCE) 방식을 따른 것으로, 실제 임상 환경을 모방했다.

평가에는 g-AMIE 외에도 5년 이하의 독립 진료 경험을 가진 의사들과 간호사·의사조무사 그룹이 참여했다. 모든 참가자는 g-AMIE와 동일한 제약 조건 하에서 개별적인 의료 조언 없이 병력 청취만 수행하도록 했다.

평가 결과, g-AMIE는 환자로부터 핵심 정보를 이끌어내는 능력에서 다른 그룹들보다 높은 점수를 받았다. 생성한 의료 기록도 더 완전하고 정확하며 읽기 쉽다는 평가를 받았다. 감독 의사들은 g-AMIE가 작성한 환자 메시지를 다른 그룹보다 더 자주 승인했으며, 전반적인 감독 경험도 더 선호했다.

특히 진단의 질 측면에서 g-AMIE가 생성한 감별진단과 관리 계획이 더 적절하다는 평가를 받았다. 독립적인 의사 평가자들은 g-AMIE의 의료 기록이 후속 치료에 더 적합하다고 판단했다.

환자 관점에서도 긍정적 결과가 나왔다. 환자 역할을 한 배우들은 g-AMIE의 의사소통 방식과 공감 표현을 다른 그룹보다 높게 평가했다.

A. 독립적인 의사들이 평가한 병력 청취의 안전성과 품질. g-AMIE가 가드레일을 준수하며 고품질 병력 청취를 수행함을 보여준다. B. 생성된 의료 기록과 환자 메시지의 완전성 및 정확성. C. 감독 의사가 평가한 감독 활동과 경험. g-AMIE의 환자 메시지가 대부분의 경우 승인되었고, 감독 의사들이 다른 대조군보다 g-AMIE와의 경험을 선호했음을 보여준다. /구글리서치 블로그 캡처
A. 독립적인 의사들이 평가한 병력 청취의 안전성과 품질. g-AMIE가 가드레일을 준수하며 고품질 병력 청취를 수행함을 보여준다. B. 생성된 의료 기록과 환자 메시지의 완전성 및 정확성. C. 감독 의사가 평가한 감독 활동과 경험. g-AMIE의 환자 메시지가 대부분의 경우 승인되었고, 감독 의사들이 다른 대조군보다 g-AMIE와의 경험을 선호했음을 보여준다. /구글리서치 블로그 캡처

◇ 의료 AI 활용의 새로운 기준점 제시, 아직 한계도 많아

이번 연구는 의료 AI의 책임 있는 배치를 위한 중요한 이정표를 제시했지만, 여전히 해결해야 할 과제들도 많다.

대표적인 한계는 현실 적용 가능성이다. 연구에 참여한 의료진들은 이런 방식의 워크플로우에 대한 훈련을 받지 않았기 때문에, 실제 성능 비교에는 신중한 해석이 필요하다. 특히 의사들은 병력 청취와 진단 과정을 연결하여 생각하도록 훈련받았는데, 이를 분리하는 새로운 방식에 적응하는 데 시간이 필요할 수 있다.

g-AMIE의 과도한 상세함도 문제점으로 지적됐다. AI가 생성하는 의료 기록이 너무 장황해 의사가 검토하는 데 많은 시간이 걸리고, 간결성을 위한 편집이 자주 필요했다. 감독 의사들과의 인터뷰에서도 AI 보조 의사결정 시스템의 인지적 부담이 상당하다는 점이 확인됐다.

또한 몇 가지 사례에서 AI가 사실과 다른 내용을 생성하는 할루시네이션(환각) 현상이 관찰됐다. 다행히 이런 현상은 인간 의료진에게서도 비슷한 빈도로 나타나는 기억 오류와 유사한 수준이었지만, 실제 의료 현장에서는 더 엄격한 검증이 필요하다고 판단됐다.

연구진은 “결과를 g-AMIE가 임상의보다 우수하다는 의미로 해석해서는 안 된다”며 “임상의들은 이 워크플로우에 대한 훈련을 받지 않았다”고 강조했다. 또 “대화형 진단 AI 시스템의 책임감 있고 확장 가능한 활용을 위한 프레임워크를 향한 중요한 단계”라고 평가했다.

저작권자 © THE AI 무단전재 및 재배포 금지
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
모바일버전