[헬스테크]

이미지
서울아산병원 영상의학과 박성호 교수​/사진=이해림 기자
지금은 소프트웨어 형식이든 하드웨어 형식이든 AI 의료기기에 대해 이야기할 때 기기 자체의 성능이 주로 화두가 된다. 해당 기기가 MRI(자기공명영상)이나 엑스레이 등 영상을 분석해 질병을 얼마나 정확히 탐지하는지가 한 예다. 성능이 뛰어난 기기가 의료 현장에 도입되면 당연히 의료 품질과 효율성도 올라갈 것 같지만, 연구 결과에 따르면 그렇지만은 않다.

유방촬영술을 통해 얻은 엑스레이 사진을 인간 의사와 AI 의료기기가 각각 판독해, 암이 의심되는 사람을 대상으로 조직 검사를 의뢰하도록 한 다음 결과를 비교한 해외 연구가 있다. 이 연구에서 인간 의사는 1858건, AI는 1886건의 의심 사례를 짚어냈으나 인간 의사의 경우 263건에 대해 실제로 조직 검사가 시행되었던 반면, AI의 경우 86건에 불과했다. AI의 판단이 상당 부분 무시된 것이다. 그러나 암으로 진단된 경우는 인간 의사(9건)보다 AI(19건)에서 더 많았다.

지난 7일 ‘대한근거중심의학회 학술대회’에서 서울아산병원 영상의학과 박성호 교수는 “이는 AI 의료기기가 의료 현장에 도입된대서 곧바로 원활히 사용되지는 않음을 보여준다”고 말했다.

AI 의료기기가 현장에서 의사를 제대로 보조하며 시너지 효과를 내지 못하는 것은 ‘신뢰성’ 문제 때문이다.

AI가 잘못된 답을 내놓을 가능성을 무시할 수는 없다. 이에 내시경 영상을 분석한 AI가 특정 부위에 암이 의심된다는 판단을 내놓았을 때, 의사는 자신이 보기에도 이 판단이 합리적인 경우에만 AI의 결과를 참고할 것이다. 여기에서 문제가 생긴다. 많은 AI가 단순히 결론으로서의 판단을 제시할 뿐, 자신이 왜 그런 판단을 내놓았는지에 대한 이유를 제공하지 않는다.


이에 인간 의사는 AI 의료기기가 내놓은 결과를 자신이 가진 지식에만 의존해 비판적으로 검토할 수밖에 없다. 그러나 의사가 자신의 전문과가 아닌 분야에 특화된 의료 AI를 활용할 경우, 해당 과 전문의처럼 결과를 검토하기가 어려우므로 AI 활용도가 떨어진다. 앞서 언급한 연구 결과에서처럼 AI 의료기기의 판단을 무시하는 경향이 생긴다. AI를 들여오더라도 실제 업무는 AI가 없을 때와 마찬가지로 진행되는 것이다.

그럼 자신이 왜 이런 결과를 내놓았는지에 대한 근거나 이유까지 제시할 수 있는 의료 AI를 만드는 것이 해법일까. 일견 그렇게 보이지만, 그렇지 않다. 박성호 교수는 “인간 의사가 미처 생각하지 못한 점을 짚어낼 것을 의료 AI에게 바라면서, 한편으로는 이것을 인간에게 이해시키라고까지 요구하는 것은 모순일 수 있다”며 “AI가 내놓은 결과에 대해 인간 의사가 자신의 지식을 활용해 최대한 비판적 검토를 시행하도록 하되, 인간 의사가 다루는 사례와 의료 AI가 다루는 사례를 구분함으로써 업무 효율화를 도모하는 것이 맞아 보인다”고 말했다.

AI가 자신의 판단에 대한 근거나 이유를 제시하지 못하더라도, 자신의 판단이 얼마나 ‘확실한지(certainty)’는 수치화해 나타낼 수 있다. 이렇듯 AI가 높은 확실성으로 제시한 판단에 대해서는 AI의 결과를 신뢰하고, 낮은 확실성으로 제시한 판단에 대해서는 인간 의사가 개입하도록 하자는 전략이 있다. 이렇게 하면 인간 의사의 업무 부담을 낮추면서도, AI가 ‘위양성’을 지나치게 만들어내 불필요한 정밀 검사 수를 늘리는 것을 방지할 수 있다.

실제로 이러한 분업을 시행했더니, 인간 의사가 개입해야 하는 사례의 수는 줄었음에도 인간 의사가 개입할 때만큼 암이 정확히 진단됐다는 해외 연구 결과가 있다. AI가 단독으로 진단할 때보다 정밀 검사 의뢰 건수 역시 감소했다.

박성호 교수는 “의료 AI를 병·의원에 가져다 놓기만 한대서 의료의 질과 효율성이 향상되지 않는다”며 “인간 의사가 어떻게 AI를 활용할 것인지에 대한 고찰과 교육이 필요하다”고 말했다.