서울대병원과 네이버 공동 연구팀이 건강 검진 데이터를 활용해 개인의 생물학적 나이와 건강 위험을 함께 평가할 수 있는 인공 지능(AI) 모델을 개발했다.
연구팀은 트랜스포머(Transformer) 기반 딥러닝 구조를 적용해 15만여 명의 건강 검진 정보와 질병·사망 데이터를 동시에 학습시킴으로써, 기존 모델보다 건강 상태 구분과 생존 위험 예측의 정확도를 높였다. 이번 연구는 생물학적 나이와 실제 나이의 차이를 활용해 개인 맞춤형 건강 위험 관리와 질병 예방 전략 수립에 기여할 수 있는 AI 기반 도구의 가능성을 제시했다.
생물학적 나이(Biological Age, BA)는 유전, 생활 습관, 환경, 질병 이력 등 다양한 요인을 종합해 신체의 실제 노화 정도를 수치로 표현한 지표다. 실제 나이(Chronological Age, CA)보다 생물학적 나이가 낮으면 건강 상태가 양호함을 의미하고, 반대로 높으면 노화가 빠르거나 질병 위험이 클 수 있다. 그러나 기존의 생물학적 나이 예측 모델은 주로 건강한 사람의 데이터를 기반으로 만들어져, 만성 질환자에게 적용하기 어렵고 사망 위험을 반영하지 못한다는 한계가 있었다.
서울대병원 내분비대사내과 조영민·배재현·윤지완 교수팀과 네이버 Digital Healthcare LAB 유한주·문성은 박사팀은 2003년부터 2020년까지 서울대병원 강남 센터에서 건강 검진을 받은 15만 1281명의 데이터를 분석했다. 데이터에는 신체 계측 결과, 혈액·소변 검사 수치, 폐 기능 검사 결과와 질병 유무 및 사망 정보가 포함됐으며, 연구 대상자는 혈당·혈압·콜레스테롤(지질) 수치에 따라 ▲정상군 ▲질환 전 단계군 ▲질환군으로 분류됐다.
연구팀은 이 데이터를 바탕으로 트랜스포머 구조의 AI 모델을 설계했다. 혈압, 혈당, 폐 기능, 콜레스테롤 등 다양한 건강 지표를 통합 분석해 개인의 생물학적 나이(BA)를 예측하고, 이를 실제 나이(CA)와 비교해 두 값의 차이(BA-CA)를 산출하도록 했다. 또한, 학습된 대규모 데이터를 바탕으로 사용자의 건강 지표가 과거 생존율이 높았던 집단과 사망 위험이 컸던 집단 중 어느 쪽과 유사한지를 분석해 구체적인 예측값을 제시하게 했다.
분석 결과, 이번에 개발된 AI 모델은 정상군, 질환 전 단계군, 질환군을 명확히 구분했다. 정상군은 생물학적 나이가 실제 나이보다 낮게(BA<CA), 질환군은 높게(BA>CA) 나타나 건강 상태에 따른 뚜렷한 차이를 보였다. 혈당·혈압·지질 수치가 악화될수록 생물학적 나이와 실제 나이 간 격차(BA-CA)가 커졌으며, 심혈관 질환이나 암이 있는 경우에도 이 격차가 유의하게 증가했다.
연구팀은 AI가 계산한 생물학적 나이에서 실제 나이를 뺀 값(BA–CA)을 기준으로 ▲건강군(BA–CA <−1) ▲기준군(−1≤BA–CA≤1) ▲비건강군(BA–CA>1)을 나누어 생존율을 분석했다. 그 결과, 남성의 경우 비건강군이 건강군보다 생존율이 통계적으로 유의하게 낮았다. 여성에서도 유사한 경향이 확인됐다.
조영민 교수(내분비대사내과)는 “이번 연구는 질병 유병 상태와 사망 정보를 동시에 학습한 최초의 트랜스포머 기반 생물학적 나이 예측 모델을 만들었다는 점에서 의미가 크다”며 “AI가 단순히 생물학적 나이를 계산하는 것을 넘어, 개인의 건강 상태와 미래 위험을 함께 반영할 수 있는 새로운 임상 도구로 발전할 수 있음을 보인다”고 말했다.
이번 연구 결과는 의료 정보학 분야의 국제 학술지 ‘Journal of Medical Internet Research’ 최근호에 게재됐다.
연구팀은 트랜스포머(Transformer) 기반 딥러닝 구조를 적용해 15만여 명의 건강 검진 정보와 질병·사망 데이터를 동시에 학습시킴으로써, 기존 모델보다 건강 상태 구분과 생존 위험 예측의 정확도를 높였다. 이번 연구는 생물학적 나이와 실제 나이의 차이를 활용해 개인 맞춤형 건강 위험 관리와 질병 예방 전략 수립에 기여할 수 있는 AI 기반 도구의 가능성을 제시했다.
생물학적 나이(Biological Age, BA)는 유전, 생활 습관, 환경, 질병 이력 등 다양한 요인을 종합해 신체의 실제 노화 정도를 수치로 표현한 지표다. 실제 나이(Chronological Age, CA)보다 생물학적 나이가 낮으면 건강 상태가 양호함을 의미하고, 반대로 높으면 노화가 빠르거나 질병 위험이 클 수 있다. 그러나 기존의 생물학적 나이 예측 모델은 주로 건강한 사람의 데이터를 기반으로 만들어져, 만성 질환자에게 적용하기 어렵고 사망 위험을 반영하지 못한다는 한계가 있었다.
서울대병원 내분비대사내과 조영민·배재현·윤지완 교수팀과 네이버 Digital Healthcare LAB 유한주·문성은 박사팀은 2003년부터 2020년까지 서울대병원 강남 센터에서 건강 검진을 받은 15만 1281명의 데이터를 분석했다. 데이터에는 신체 계측 결과, 혈액·소변 검사 수치, 폐 기능 검사 결과와 질병 유무 및 사망 정보가 포함됐으며, 연구 대상자는 혈당·혈압·콜레스테롤(지질) 수치에 따라 ▲정상군 ▲질환 전 단계군 ▲질환군으로 분류됐다.
연구팀은 이 데이터를 바탕으로 트랜스포머 구조의 AI 모델을 설계했다. 혈압, 혈당, 폐 기능, 콜레스테롤 등 다양한 건강 지표를 통합 분석해 개인의 생물학적 나이(BA)를 예측하고, 이를 실제 나이(CA)와 비교해 두 값의 차이(BA-CA)를 산출하도록 했다. 또한, 학습된 대규모 데이터를 바탕으로 사용자의 건강 지표가 과거 생존율이 높았던 집단과 사망 위험이 컸던 집단 중 어느 쪽과 유사한지를 분석해 구체적인 예측값을 제시하게 했다.
분석 결과, 이번에 개발된 AI 모델은 정상군, 질환 전 단계군, 질환군을 명확히 구분했다. 정상군은 생물학적 나이가 실제 나이보다 낮게(BA<CA), 질환군은 높게(BA>CA) 나타나 건강 상태에 따른 뚜렷한 차이를 보였다. 혈당·혈압·지질 수치가 악화될수록 생물학적 나이와 실제 나이 간 격차(BA-CA)가 커졌으며, 심혈관 질환이나 암이 있는 경우에도 이 격차가 유의하게 증가했다.
연구팀은 AI가 계산한 생물학적 나이에서 실제 나이를 뺀 값(BA–CA)을 기준으로 ▲건강군(BA–CA <−1) ▲기준군(−1≤BA–CA≤1) ▲비건강군(BA–CA>1)을 나누어 생존율을 분석했다. 그 결과, 남성의 경우 비건강군이 건강군보다 생존율이 통계적으로 유의하게 낮았다. 여성에서도 유사한 경향이 확인됐다.
조영민 교수(내분비대사내과)는 “이번 연구는 질병 유병 상태와 사망 정보를 동시에 학습한 최초의 트랜스포머 기반 생물학적 나이 예측 모델을 만들었다는 점에서 의미가 크다”며 “AI가 단순히 생물학적 나이를 계산하는 것을 넘어, 개인의 건강 상태와 미래 위험을 함께 반영할 수 있는 새로운 임상 도구로 발전할 수 있음을 보인다”고 말했다.
이번 연구 결과는 의료 정보학 분야의 국제 학술지 ‘Journal of Medical Internet Research’ 최근호에 게재됐다.