의료장비

"인공지능 진단보조 효과 입증됐지만… 의료 현장에서 보이는 한계 있어"

정준엽 기자

대한영상의학회 포럼

이미지

서울아산병원 영상의학과 박성호 교수(대한영상의학회 편집이사)가 진단보조 인공지능의 사용 사례를 소개하고 있다./사진=정준엽 기자
"AI(인공지능)가 환자 의료 개선에 도움을 줄 잠재력이 확인된 것은 사실이지만, 실제 진료에 널리 보급돼 개선 효과를 보여준 사례는 사실 아직 드물다. 따라서 인간과 AI 사이의 상호 작용에 대한 보다 심도 있는 이해를 바탕으로 세밀하고 과학적인 방법으로 AI를 도입해야 한다."

서울아산병원 영상의학과 박성호 교수(대한영상의학회 편집이사)는 17일 서울 서초구에서 열린 '환자와 의료진을 위한 진단보조 인공지능의 적절한 적용' 포럼에서 이같이 말했다.

연구 환경에서 진단보조 인공지능의 효과가 충분히 입증됐지만, 실제 진료 환경에서 나타난 인공지능의 의료 개선 효과는 기대치와 다소 괴리가 있어 바람직한 적용 방식이 필요하다는 제안이 등장한 것이다. 이는 단순히 금전적 이익 등을 강조한 채 무조건 모든 의료진·환자들에게 도입하는 근시안적 방법은 AI 보급에 궁극적으로 부정적인 영향을 미칠 수 있다는 의미로 풀이된다.

◇AI 자료 의존성·실제 의료 데이터 이질성 맞물리면… 진단 정확도 낮아져

의료진이 진단보조에서의 AI에 대해 거는 기대감은 크게 진단 능력을 높이고 비전문가를 전문가 수준으로 만드는 것과, 의료인의 업무 부담을 낮추고 번아웃을 막는 것, 그리고 의료 행위의 결과를 향상시키는 것이다. 그러나 박성호 교수에 따르면, 실제 진료에 단지 AI를 추가하는 것만으로는 이러한 기대 효과를 누리기 어려운 상황이다. 즉, 의료기기의 인허가를 위해 연구 환경에서 검증한 성능이 곧 현장의 성능으로 이어진다는 보장이 없다는 뜻이다.


대표적인 예시로는 AI의 위양성(가짜 양성) 판정 사례가 있다. 박성호 교수는 CT 촬영에서 경추골절을 찾아내는 AI의 사례를 공유했다. 해당 AI 의료기기가 미국 식품의약국(FDA)의 인허가를 받을 당시에는 연구 환경에서 민감도(양성 판별 능력) 91.7%, 특이도(음성 판별 능력) 88.6%로 높은 성능을 입증했으나, 윈스콘신-매디슨 대학병원에서 1904명의 환자를 대상으로 의료기기의 성능을 다시 확인한 결과, 특이도는 94.1%로 높게 나왔음에도 민감도가 54.9%로 낮게 나타났다. 즉, AI가 실제로는 골절이 아닌데도 골절로 잘못 판정하는 사례가 있다는 것이다.

이는 AI의 높은 자료 의존성과 의료 데이터의 높은 이질성으로 인해 발생한다. 자료 의존성이란 AI의 학습에 사용된 자료와 동일하거나 유사한 자료에서는 잘 작동하는 자료가 크게 달라질 경우 잘 작동하지 않는 특성을 의미한다. 박성호 교수는 "실제 의료 데이터는 병원마다, 그 안에서의 의료진·검사 시기마다도 차이가 날 만큼 이질적"이라며 "이처럼 이질적인 의료 데이터가 자료 의존성이 있는 AI와 맞물리게 되면 성능 일반화에 있어서 근본적인 제약이 생긴다"고 말했다.

AI와 인간이 가진 강·약점이 서로 다른 상황에서 비전문가가 AI를 사용하는 것도 오류 발생에 영향을 미친다. AI는 인간과 달리 집중력이 떨어지지 않는다는 강점이 있으나, 간혹 사람이 보면 금방 알 수 있는 내용을 AI가 전혀 파악하지 못하는 경우도 있는 것으로 알려졌다. 이처럼 인간과 AI의 강·약점이 서로 다른 상황에서 서로의 약점을 보완하는 '합집합' 방식으로 AI가 진단보조에 사용돼야 하지만, 비전문가가 AI를 사용할 경우 AI에 그대로 의존해서 잘못된 AI 결과를 따라가는 현상이 종종 발생한다. 박성호 교수는 "AI에 의존해서 그대로 AI 결과를 따라가는 현상을 피하는 게 중요하고, 반대로 AI 결과를 무조건 무시해 버리는 일도 없어야 한다"며 "AI가 특정 결과를 제시한 이유나 진단의 참/거짓 여부를 판단하기 어렵고, 특히 비전문가에게는 더욱 어려울 수 있다"고 말했다.

AI가 무조건 의료인들의 업무 부담을 줄이는 것도 아닐 수 있다고 밝혔다. 서울성모병원 영상의학과 최준일 교수(대한영상의학회 정책연구이사)는 "전문가가 AI를 활용했을 때 민감도나 특이도를 높일 수 있는 여지는 분명 있지만, 그렇다고 해서 하루에 10건의 데이터를 보던 것을 20건으로 볼 수 있을 만큼 효율이 개선되는 것은 아니다"라며 "인공지능이 제시해주는 병변 하나하나가 맞는지 틀린지를 결국 다시 봐야 하기 때문에 오히려 시간이 더 걸리는 경우도 많다"고 말했다.



이미지

사진설명=서울아산병원 영상의학과 이충욱 교수(대한영상의학회 보험이사)가 바람직한 기술 적용 방법에 대해 제언하고 있다./사진=정준엽 기자
◇"전문가 사용·모니터링, 적응증 구체화 중요"

그렇다면 진단보조에서 AI를 정확하게 사용하기 위해서는 어떤 방법을 고려해볼 수 있을까. 의료진들은 우선 AI가 전문가들을 통해 사용되고, 정기적으로 모니터링되는 것이 가장 중요하다고 밝혔다. 비전문가의 경우 AI 결과를 무조건 따라가는 현상이 생길 수 있어서다. 여기서 말하는 전문가란 AI가 진단에 활용할 수 있는 결과를 제시했을 때 의학적으로 맞는 판단인지를 제대로 해석할 수 있는 소양을 갖춘 의료진을 말한다.

박성호 교수는 "진짜 괜찮은 전문가는 AI에 관한 지식이나 사용 경험 같은 것들이 같이 구비돼 있어 정확한 판단을 할 수 있는 의료진"이라며 "의료계에서도 이러한 전문가를 많이 육성하기 위해 AI 교육을 조금씩 시작하고는 있으나, 본격적으로 많이 하지 못한 상황"이라고 말했다. 이어 그는 "앞으로는 의학 교육 내에서 AI 사용과 관련된 기본 교육이 좀 더 보강돼서 상당한 전문성을 갖춘 인재가 더 많이 나와야 한다"며 "그런 전문가들이 관리자 역할을 수행한다면 굉장히 효과적일 것"이라고 말했다.


의료기기를 환자에게 사용할 때 사용 대상이나 적응증을 더 구체화해, 질병 위험이 큰 환자군에 한해 우선적으로 도입할 필요가 있다는 의견도 등장했다. 효능을 검증하는 연구 단계에서는 모든 성인 집단에 대해 쓰더라도, 추후 구체적으로 질병 위험이 큰 집단을 설정하지 않고 광범위하게 사용할 경우 불필요한 검사 비용을 추가로 부담하는 등 환자의 경제적인 측면에서 비효율적인 문제가 발생할 수 있기 때문이다. 서울아산병원 영상의학과 이충욱 교수(대한영상의학회 보험이사)는 "AI 소프트웨어는 프로그램만 돌리면 사용이 가능하기 때문에 남용의 문제가 너무 쉽게 발생한다"며 "남용으로 인해 더 어마어마한 규모의 의료비를 부담해야 할 수 있어 구체적인 적응증 설정을 강조해야 한다"고 말했다.



헬스조선 서비스