챗GPT 의사 열풍? 소아 오진율 살펴보니 '깜짝'

100건 중 83건 오진, 성인 오진의 '4배'…2일 JAMA 자매지 게재
연령 고려하는 소아 진단에 취약 "챗GPT, 부족하지만 훈련 지속해야"

"발진과 관절통이 있는 자폐스펙트럼 아동의 진단을 내리시오."

챗GPT는 '특발성혈소판감소성자반증'이라고 답했다. 그러나 의사들의 진단은 괴혈병이었다.

미국 코헨아동의료센터의 연구진은 소아 진단 사례 100개에 대한 챗GPT의 오진율이 무려 83%였다고 밝혔다. 지난 한해 챗GPT 열풍이 불며 의료 활용 가능성에 기대가 몰렸던 것을 생각하면 충격적인 수치다.

연구진은 지난 10년간 JAMA에 보고된 60건과 NEJM에 보고된 40건을 챗GPT(3.5버전)에 입력했고, 연구에 참여하지 않은 동료 의사 2명이 챗GPT의 진단 정확도를 평가했다.

챗GPT가 정확한 진단을 내린 사례는 100건 중 단 17건에 불과했고, 이 같은 결과는 2일 JAMA 소아과학회지(IF=26.8)에 보고됐다.

연구의 주저자인 조셉 바릴 교수는 앞서 언급한 사례에 대해 "챗GPT가 자폐스펙트럼과 비타민 결핍 간 관계를 전혀 인지하지 못했다"며 "진단 도구로 사용하기엔 챗GPT는 덜 준비된 상태"라고 분석했다.

오진한 83%중 72%는 이처럼 잘못된 진단이었고, 11%는 임상적으로 관련이 있더라도 바른 진단으로 보기에 어려운 경우였다. 예컨대 유아의 옆목에 배농성 구진이 있는 사례에 대해 의사는 아가미-귀-콩팥증후군이라 진단했으나, 챗GPT는 새열낭종이라 진단했다.

바른 진단을 내린 17% 사례는 원인불명의 두개내압상승이 있는 15세 소년 사례 등이었다. 의사가 원발성 부신 기능부전(애디슨병)으로 진단하고, 챗GPT가 부신 기능부전(애디슨병)이라 답했다.

기존 연구에 따르면 챗GPT는 성인을 대상으로한 NEJM 사례에 대해 최대 68%까지 이르는 진단 적중률을 보였다. 성인과 소아의 진단율 차이가 4배인 것이다.

유독 소아 오진율이 높은 이유를 연구진은 "정확한 진단을 위해서는 환자의 증상뿐 아니라 연령도 함께 고려해야 하는데, 그런 면에서 소아 진단이 특히 어렵기 때문"이라고 설명했다.

그러면서도 "챗GPT의 결과가 실망스러울수록 임상결과의 중요성이 부각된다"며 "높은 오진율에도 불구하고 우리 의사들은 언어 AI를 의료에 적용할 수 있도록 계속 조사하고 시도해야 한다"고 짚었다.

연구진은 "AI가 신뢰할 수 있는 정보와 신뢰할 수 없는 정보를 구분하지 않고 단순히 학습한 텍스트들로 응답을 생성하는 만큼, 선별적인 교육을 통해 AI의 진단 정확도를 높일 수 있을 것"이라며 "후에는 연구보고서나 환자를 위한 지침을 작성하는 데 의사에게 유용한 도구가 될 것으로 기대된다"고 덧붙였다.