'황금알' 같던 빅데이터, 받아보니 "암호인가?"

연구진 "데이터 특성 파악한 후 연구방향 설정 필요" 조언
BMI 보정 등 안되면 실망...심평원, 가이드라인 제시 나서

건강보험심사평가원이 빅데이터 이해의 폭을 대폭 낮춘다. 연구 및 정책 활용 목적으로 빅데이터 수요는 빠르게 늘고 있으나, 해석의 어려움을 호소하는 연구진도 늘어난 데 따른 것이다.

최근 심평원은 '보건의료빅데이터 활용 고도화 방안 연구용역'을 발주하며 보다 쉬운 빅데이터 제공을 예고했다.

사용자가 이해하기 쉬운 방식으로 빅데이터 활용도를 높이고 가이드라인을 제시하며, 국립중앙의료원이나 통계청 등 타 기관과의 협력을 통한 자료 연계가 주요 내용이다.

심평원이 제공하는 빅데이터는 ▲환자데이터셋(4종) ▲공공데이터(56종) ▲보건의료 빅데이터 ▲맞춤형 연구과제 데이터 ▲의약품사용량 정보로 나뉜다.

환자데이터셋은 전체환자, 입원환자, 소아청소년환자, 고령환자데이터셋으로 구분되며, 제공대상의 제한 없이 자유롭게 활용 가능하다. 공공데이터는 전국 병의원 및 약국데이터셋 등으로 이 역시 자유롭게 활용 가능해, 지난해 2382건에서 올해 7월 기준 7182건으로 제공 건수가 대폭 늘었다.

보건의료빅데이터는 자사의약품, 자료제공동의서를 제출한 타사 의약품, 약효분류코드 등으로 구성되며 민간 및 공공분야의 산·학·연에게 제공한다. 전국 8곳의 보건의료빅데이터를 방문해 분석하면 되며, 제공 건수는 지난해 547건에서 올해 7월 기준 454건으로 늘었다.

학술 연구 등에 활용되는 맞춤형 연구과제 데이터는 명세서 일반내역과 진료·상병내역, 원외처방전 내역 등으로 국가 및 공공기관, 학술연구 수행기관 등에게 IRB 통과 건에 한해 지원한다. 제공건수는 2013년 57건에서 2015년 75건, 올해 7월 기준 59건으로 수요가 갈수록 늘고 있다.

심평원 관계자는 "2014년 보건의료빅데이터센터 개소에 맞춰 빅데이터 홍보를 많이 했다. 이에 관심이 늘어난 것 같다"며 "최근에는 장기 데이터를 요구하는 추세다. 과거에는 3∼4년치 요청에 그쳤다면 요즘엔 7∼15년치 데이터도 요구한다"고 말했다.

특정 상병 외 모든 진료내역을 추출하는 경우도 늘고 있다. 그는 "관심변수들을 더 많이 요구한다. 세분화된 데이터 요청이 늘고 있다. 가령 고혈압 환자라면 고혈압 외 다른 상병으로 내원한 자료도 함께 분석하겠다는 요구가 증가하고 있다"고 밝혔다.

그러나 요청이 늘면서 자료 해석의 어려움을 호소하는 사람도 많아졌다.

심평원 관계자는 "데이터 해석지가 없다는 점에서 연구진들이 어려움을 겪는다. 심평원은 방대한 데이터를 효과적으로 구축하기 위해 기술적으로 쪼개놨다. 이런 구조 때문에 발생할 수밖에 없는 사전 작업들이 있다"며 "빅데이터는 임상데이터처럼 정형화된 데이터가 아니다. 통계쪽으로 기술적인 핸들링, 즉 사전 작업이 필요한데 이를 미처 생각 못했거나, 하더라도 시간이 오래 걸린다"고 설명했다.

이어 "최근 들어 가이드라인 제시 요청이 확실히 활발해졌다. 내부적으로도 1년에 2번씩 교육을 실시했으나 그것만으론 부족하다는 목소리가 있었다. 또 전문가 시선으로 보다 보니 가려운 데를 못 긁고 있다고 생각했다"며 "연구용역을 통해 자료 구축의 방법을 제시할 것이다. 데이터 구조에 대한 설명과 함께 데이터별 특성에 따라 어떤 방향으로 연구하면 좋을지 케이스별 사례를 제시할 것"이라 밝혔다.

"연구주제? 일단 빅데이터 '특성' 알고 잡아라"
그렇다면 빅데이터는 실제로 얼마나 어려운 걸까.

2008년부터 지금까지 10년 가까이 빅데이터를 활용해 연구해온 조금준 고려의대 교수(고대구로병원 산부인과)에게 이를 질문했다.

그는 "빅데이터를 막상 받아보니 그냥 '와…'소리만 나왔다. 거의 암호 수준이었다. 청구자료를 그대로 주니 분석을 위해선 누군가의 도움을 받아야 했다"는 말로 어려움을 설명했다.

조 교수는 "의사는 데이터 전문가가 아니다. 내용과 시스템을 이해하기 쉽지 않았다. 게다가 연구 방향을 바꾸면 데이터 분석작업을 처음부터 다시 해야 했다. 잘못하면 연구가 이상한 방향으로 갈 수 있어 많은 시행착오를 겪었다"라며 "청구데이터에 한해 보면, A약을 처방하기 위해 진단코드를 다르게 넣을 수도 있지 않은가. 특정 암환자라면 모를까, 중증도가 낮은 감기 같은 상병이라면 데이터의 전후사정을 고려해 분석할 필요가 있다"고 말했다.

이어 "빅데이터에 실망하는 이유가 데이터 특성을 잘 모르는 채 접근하기 때문"이라며 "의사들은 나이와 BMI, 환자 캐릭터 등을 보정한 데이터이길 원한다. 그게 되지 않으니 일차적으로 실망하는 경향이 있다"고 밝혔다.

그는 "많은 연구진들이 자기가 하고 싶은 주제를 정한 다음 데이터를 요청하겠다고 하는데, 문제는 상당수가 빅데이터로 연구하기엔 적합하지 않다는 데 있다"며 "일단 해당 빅데이터의 특성을 파악하는 게 먼저"라고 조언했다.

수수료의 적정성 논란에 대해서는 "연구자들이 데이터 특성을 모르고 무조건 많이 달라고 요청해 비싸지는 경향도 있다. 경험이 있으면 요청량을 줄일 수 있다. 최소한의 데이터로도 최적의 결과를 내는 법을 찾을 필요가 있다"며 "기관보다 연구비 부담이 큰 개인 연구자의 경우 좋은 성과를 내면 일정 수수료를 돌려주는 등 차별화도 좋을 것 같다"고 제안했다.

박소영 기자 다른기사 보기

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

연구진 "데이터 특성 파악한 후 연구방향 설정 필요" 조언 BMI 보정 등 안되면 실망...심평원, 가이드라인 제시 나서

연구진 "데이터 특성 파악한 후 연구방향 설정 필요" 조언
BMI 보정 등 안되면 실망...심평원, 가이드라인 제시 나서