종합

암 환자 기대 모은 왓슨, 생각보다 똑똑하지 않다

김진구 헬스조선 기자

[메디컬 인사이드] AI 의사 '왓슨' 도입 1년

의견 일치율, 한국선 56%에 그쳐… 인종적 특성 충분히 반영 안된 탓
치료법 갈릴 땐 의료진 결정 따라
사람의 실수 줄이는 보조적 역할… 韓·美, 왓슨 의료기기로 분류 안 해

1년 전, 인공지능(AI)으로 최적의 암 치료법을 찾아낸다는 '왓슨'이 도입되자 절망에 빠져있던 암 환자들의 가슴이 한껏 부풀었다. 가천대 길병원을 시작으로 부산대병원, 대구가톨릭대병원, 계명대동산병원, 건양대병원, 조선대병원, 전남대병원 등 7곳이 1년 새 왓슨을 도입했다. 그러나 현재 왓슨의 활약상은 그리 두드러지지 않다. "암 치료의 획기적 전기가 마련될 것"이라는 예상과는 너무 다르다. 왓슨이 '아직까지는' 기대만큼 똑똑하지 않기 때문이다.

◇한국에서 실력 발휘 못하는 왓슨


가천대 길병원은 작년 12월, 왓슨 도입 1주년을 기념하는 심포지엄을 열고 대장암(결장암) 환자 118명에 대해 왓슨이'추천'한 치료법과 의료진 의견이 55.9% 일치하는 등 왓슨과 의료진의 의견 일치율이 향상됐다고 발표했다. 도입 당시 일치율 48.9%에 비해 7%포인트 높아졌다는 것. 그러나 뒤집어 보면 44%는 의견이 일치하지 않았다는 것을 의미한다. 길병원은 이에 앞서 작년 10월 미국임상종양학회(ASCO 2017)에 왓슨의 진행성 위암에 대한 일치율이 '추천'뿐 아니라 '고려'까지 포함해도 49%에 불과하다고 보고한 바 있다.



이미지

왓슨은 종종 의사와 의견이 엇갈린다. 이때 최종 결정은 여러 과 전문의가 상의해 내린다. 왓슨의 의견은 보조적으로만 사용된다. 사진은 길병원 의료진이 왓슨을 활용해 암 치료 방향을 결정하는 모습. /사진=신지호 헬스조선 기자
왓슨은 전 세계 수백여 종의 암 저널과 의학 교과서 등 전문 자료를 실시간으로 검색해 특정 환자에 대한 치료법을 '추천' '추천 고려' '비추천'으로 제시하는 시스템이다. 왓슨을 개발한 IBM은 왓슨과 미국 최고의 암 병원인 메모리얼 슬로언 케터링 암센터 의료진 간의 의견 일치율이 대장암 98%, 직장암 96%, 방광암 91%, 난소암 95%, 자궁경부암 100%라고 소개하고 있다. 현재까지의 결과만 보면 미국에서 유용한 왓슨이 한국에선 실력 발휘를 못 하는 셈이다. 길병원보다 앞서 왓슨을 도입한 인도 마니팔 병원의 경우, '추천' 의견 일치율이 대장암 63%, 직장암 86%로 한국보다 월등히 높다. 같은 아시아권 국가인 인도보다 의견 일치율이 크게 낮다.

한국에서 일치율이 낮은 가장 큰 이유는 인종적 특성 때문이다. 한국인을 비롯한 동양인과 서양인은 암 발병 원인이 다르고, 항암제에 대한 반응도 차이가 있다. 그러나 암 관련 최신 연구는 대개 미국이나 유럽에서 진행되며, 한국인의 인종적 특성이 인공지능에 충분히 반영되기 어려워 왓슨을 그대로 한국에 적용하는 데는 한계가 있는 것이다.

실제로 위암의 경우 길병원 연구진은 한국과 일본에서 주로 사용되는 S-1 계열 항암제와 시스플라틴 조합이 미국인 등에겐 설사 등 부작용이 심해 사용하지 않기 때문에 일치율이 낮아졌다고 설명한다. 그 밖에 ▲왓슨이 권고하는 약이 아직 한국에 들어오지 않았거나 ▲국민건강보험제도의 특성상 해당 항암제에 급여 혜택이 제공되지 않는 것도 불일치율이 높은 요인이다.

◇왓슨의 능력은 애초부터 과장되었나?




이미지

그래픽=송윤혜 기자
미국 등지에선 왓슨에 대한 회의적인 시선도 대두되고 있다. 의견 일치율이 90% 이상이라는 IBM측 자료와 관련해서도 왓슨 훈련용 데이터와 검증용 데이터를 동일한 것으로 사용한 결과라는 비판을 받고 있다. 예를 들어 환자 A·B·C의 데이터로 왓슨을 가르친 뒤, 다시 A·B·C 환자를 정확하게 진단하는지를 확인한 결과라는 것이다. 또 다른 미국 최고의 암 병원인 MD앤더슨 암센터는 2012년부터 IBM과 함께 왓슨의 알고리즘을 이용, 폐암과 5가지 백혈병 치료 프로그램을 개발하다가 지난 2016년 9월 IBM과의 계약을 종료했다. MD앤더슨은 감사 과정에서 IBM과의 계약이 적절치 않았던 것으로 드러나 파기했다고 밝히고 있지만, 4년여 개발 기간 동안 이렇다 할 성과를 내지 못하는 등 왓슨의 알고리즘에 대한 회의적인 시각도 계약 파기의 중요한 원인으로 작용한 것으로 거론되고 있다. 디지털헬스케어연구소 최윤섭 소장은 "왓슨은 미래 의학의 상징처럼 알려져 있지만 정확성이 임상적으로 증명된 바 없으며 미국에서부터 실력이 의심받고 있다"고 말했다.

◇왓슨은 미완성형… "맹신 경계해야"

식품의약품안전처는 지난해 말 '빅데이터 및 인공지능 기술이 적용된 의료기기의 허가·심사 가이드라인'을 발표하면서 왓슨을 '비(非)의료기기'로 분류했다. 정확성과 안전성, 유효성 입증이 필요한 의료기기로 본 것이 아니라 '의학 저널을 빠르게 검색하고 요약하는 도구' 정도로 인정했다는 의미다.

미국에서도 왓슨은 의료기기로 분류되지 않았으며, 정확성·안전성·유효성에 대한 공개된 임상시험 자료가 전무하다. 지금껏 공개된 자료는 왓슨과 의료진의 의견 일치율이 얼마인지에 대한 것뿐이며, 왓슨과 의료진 의견이 엇갈렸을 때 실제 누구의 의견이 옳았는지 등에 대한 연구 결과는 아직 없다.

길병원에 따르면 대다수 환자들은 인공지능을 의사보다 신뢰하는 경향이 있으며, 실제로 만족도가 95%에 달했다. 그럼에도 불구하고 의견이 엇갈릴 경우 길병원 측은 대부분 인공지능이 아닌 '인간'의 의견대로 치료를 진행한다고 설명한다. 길병원 인공지능 정밀의료 추진단 이언(신경외과) 단장은 "왓슨을 이용한 암 치료법의 결정은 여러 과 전문의가 모여서 함께 의견을 모아가는 방식으로 이뤄지며, 왓슨도 하나의 의견일 뿐"이라며 "인간 의사와 인공지능 의사의 대결로 비춰지는 면이 있지만, 왓슨은 인간의 실수를 줄이는 데 보조적으로만 쓰이므로 환상은 금물"이라고 말했다. '의학의 미래'로 칭송받던 왓슨의 굴욕이다.






占쎄퓭爰귨옙占쎌삕�좎럩�뺝뜝�덈굦占쎈벨�숅넫臾믪굲 占쎌쥙�∽옙��삕占쏙옙�용쐻�좑옙 占쎌쥙�⒳펺�뗭삕�앾옙�뗭삕占쎄퉮援꿨뜝�뚯쪣占쏙옙

占쎌쥙�⒳펺�뗭삕占쏙옙�뗭삕占쎈끏已�옙醫롫윥占쎈벨�숋옙占쎌굲壤깍옙占쎈뜄�됧뜝�뚯쪣占쏙옙 占쎌쥙�⒳펺�뗭삕占쎈벊彛띶뜝�덇턂占쎈틶�앾옙�덉굲�좎럩�쒙옙�쇱삕�ル쵐��