[헬스테크]
몸에 전에 없던 이상 증상이 나타난 초기, 병·의원에 곧바로 가기보다 AI 챗봇에 원인을 질문하는 사람이 더 많다. 그러나 맹신은 위험하다.
이용자가 자신의 증상에 대한 일부 정보만 제공했을 때, AI 챗봇이 원인을 정확히 감별해내는 능력이 현저히 떨어진다는 연구 결과가 나왔다.
미국 연구팀은 의학 교과서를 바탕으로, 실제 진료 현장에서 만날 법한 환자의 사례를 재구성한 이야기 29개를 활용해 AI 챗봇의 진단 능력을 시험했다. ▲오픈에이아이의 챗지피티(ChatGPT) ▲앤트로픽의 클로드(Claude) ▲구글의 제미나이(Gemini) ▲엑스에이아이의 그록(Grok)을 비롯한 21개 챗봇이 그 대상이었다. 연구팀은 환자의 병력과 현재 아픈 양상, 각종 신체검사 결과 내용을 AI 챗봇에게 제시하고, 몸 상태에 관한 질문을 던졌을 때 정확하게 대답하지 못한 비율을 측정했다.
실험 결과, 가상 환자에 대한 정보를 일부만 제공한 상태에서는 다양한 후보 질환 중 진짜 원인을 정확하게 짚어내는 ‘감별 진단’ 실패율이 모든 AI 챗봇에서 80%를 뛰어넘었다. 정보를 온전히 제공했을 때에는 진단 실패율이 40% 미만으로 떨어졌다.
이는 AI 챗봇만으로 건강 문제의 원인을 진단하는 것이 위험할 수 있음을 보여준다. 질병 초기에는 이용자가 자신의 몸 상태에 대한 정보를 AI에게 낱낱이 보고하는 것이 불가능하기 때문이다.
논문 저자인 매스 제너럴 브리검 헬스케어 시스템 소속 연구자 아리아 라오는 “AI 챗봇들은 판단에 필요한 데이터가 완벽하게 주어졌을 때에는 훌륭한 진단을 내리지만, 정보가 불충분한 때에는 고전한다”고 말했다.
이용자가 자신의 증상에 대한 일부 정보만 제공했을 때, AI 챗봇이 원인을 정확히 감별해내는 능력이 현저히 떨어진다는 연구 결과가 나왔다.
미국 연구팀은 의학 교과서를 바탕으로, 실제 진료 현장에서 만날 법한 환자의 사례를 재구성한 이야기 29개를 활용해 AI 챗봇의 진단 능력을 시험했다. ▲오픈에이아이의 챗지피티(ChatGPT) ▲앤트로픽의 클로드(Claude) ▲구글의 제미나이(Gemini) ▲엑스에이아이의 그록(Grok)을 비롯한 21개 챗봇이 그 대상이었다. 연구팀은 환자의 병력과 현재 아픈 양상, 각종 신체검사 결과 내용을 AI 챗봇에게 제시하고, 몸 상태에 관한 질문을 던졌을 때 정확하게 대답하지 못한 비율을 측정했다.
실험 결과, 가상 환자에 대한 정보를 일부만 제공한 상태에서는 다양한 후보 질환 중 진짜 원인을 정확하게 짚어내는 ‘감별 진단’ 실패율이 모든 AI 챗봇에서 80%를 뛰어넘었다. 정보를 온전히 제공했을 때에는 진단 실패율이 40% 미만으로 떨어졌다.
이는 AI 챗봇만으로 건강 문제의 원인을 진단하는 것이 위험할 수 있음을 보여준다. 질병 초기에는 이용자가 자신의 몸 상태에 대한 정보를 AI에게 낱낱이 보고하는 것이 불가능하기 때문이다.
논문 저자인 매스 제너럴 브리검 헬스케어 시스템 소속 연구자 아리아 라오는 “AI 챗봇들은 판단에 필요한 데이터가 완벽하게 주어졌을 때에는 훌륭한 진단을 내리지만, 정보가 불충분한 때에는 고전한다”고 말했다.