건강을 위한 바른 소리, 의료를 위한 곧은 소리
updated. 2024-04-20 06:00 (토)
'원인-결과' 배제 'P-값' 맹신 통계적 오류 초래

'원인-결과' 배제 'P-값' 맹신 통계적 오류 초래

  • Doctorsnews admin@doctorsnews.co.kr
  • 승인 2016.08.09 05:59
  • 댓글 0
  • 페이스북
  • 트위터
  • 네이버밴드
  • 카카오톡
이 기사를 공유합니다

환경의 공습…위험에 내몰린 국민건강 ⑮
의협신문·의협 국민건강보호위원회 공동기획
김호(서울대학교 보건대학원 교수)

 

통계학 이용한 환경보건 연구결과 이해

▲ 김호(대한의사협회 국민건강보호위원회 환경건강분과 위원 서울대학교 보건대학원 교수)

최근 다뤄지고 있는 많은 환경역학의 문제들은 그 위험이 아주 크지 않아 보통 사람들이 노출되는 정도에서는 모든 사람들에게 아주 중대한 건강문제를 당장 일으키지는 않는 경우가 많다.

얼마 전 환경부 장관이 현재 우리나라의 대기오염은 건강한 보통사람들에게는 아무 문제가 되지 않는다고 발언해 물의를 일으킨 적이 있다. 그 후 많은 언론과 환경보건 전문가들의 반론이 제기되면서 이 발언은 해프닝으로 마무리된 듯 하다.

필자는 이러한 반론들과 더불어 환경보건의 위험들을 이해하는데 통계학적인 개념의 이해의 부족이 이러한 발언의 중요한 이유가 되지 않았나 생각한다. 사실 이런 문제들은 전문가 집단에서도 광범위하게 존재하고 있다는 것을 여러 번 느껴왔다. 이번 글에서는 역학연구에서 핵심적으로 사용되는 통계학적 개념들 중에서 중요한 것들을 살펴보면서 해석에 의한 오류를 줄이는데 기여하고자 한다.

통계적 가설검정

통계적 가설검정의 이론 중에서 가장 많이 사용되고 있는 것이 p-값이 아닐까 한다. 이를 잘 사용하기 위해서는 통계적 가설검정에 대해 잘 이해해야 한다. 가설검정이라 함은 두 가지 가설 중에서 하나를 택하는 과정이다. 그런데 세상 대부분의 결정이 그렇듯이 완벽히 중립적인 선택을 하는 것은 불가능하다. 

재판의 과정을 예로 들어보자. 판사가 유죄여부를 판단할 때의 두 가지 가설은 '1)피고는 무죄이다. 2)피고는 유죄이다.'이다. 이 두 가지 가설은 서로 배타적이고(두 가지 일이 동시에 일어날 수 없다. 즉 두 사건의 교집합은 공집합이다.) 모든 경우를 다 포함하고 있다.

판사는 여기서 둘 중 하나를 선택해야 한다. 이 경우 사려 깊은 판사라면 판결을 내리기 전에 미리 판결이 잘못 되었을 때, 즉 오류에 대해서 생각해 볼 것이다.

여기서는 두 가지 오류가 존재하는데 '무죄인 피고를 유죄로 판결하는 오류(오류 1), 유죄인 피고를 무죄로 판결하는 오류(오류 2)'가 그것들이다. 그런데 이 두 가지 오류의 중요성이 동일하다고는 생각할 수 없다. 무죄의 피고인을 유죄로 판단하는 것이 그 반대의 경우보다 훨씬 중대한 오류라는 것은 많은 사람들이 동의하는 현대적인 사고이다.

마찬가지로 우리가 어떠한 결정을 하더라도 두 가지 오류 중에서 더 심각한 오류가 무엇인가를 결정하고 그 오류를 최소화하고자 노력할 것이다. 재판의 예에서 만약 무죄의 증거와 유죄의 증거가 동일하다면 오류(1)을 최소화하기 위해서는 피고를 무죄로 추정하는 것이 더 합리적일 것이다. 이 경우 유죄의 증거를 무죄의 증거보다는 더 중요하게 판결의 기준으로 사용할 수 있을 것이다.

통계적 가설 검정에서는 보통 증명하고자 하는 가설을 대립가설이라고 하고 그 가설을 증명하기 위해서 만드는 그 반대의 경우를 귀무가설이라고 한다.

예를 들면 대기오염이 건강과 관련이 있다는 사실을 증명하고자 한다면 이를 대립가설로 세우고 그 반대의 경우 즉 대기오염과 건강은 서로 관련이 없다는 것이 귀무가설이 된다. 이를 검정하기 위해서 귀무가설을 가정한 상태에서 관찰된 자료를 얻을 확률을 계산하게 되는데 이를 p-값이라고 한다.

한편 재판의 경우와 같이 이 경우에도 두 가지의 오류가 존재하게 되는데 '(1) 둘 사이에 연관이 없는데도 연관이 있다고 판단하는 오류, (2) 둘 사이에 연관이 있는데도 연관이 없다고 판단하는 경우'가 그것들이다. 통계학 문헌에서 (1)을 일종의 오류, (2)를 이종의 오류라고 이야기한다.

용어에서도 알 수 있듯이 보통의 경우 일종의 오류를 이종의 오류보다 더 심각한 오류라고 판단한다. 대기오염의 예에서는 둘 사이에 관계가 없는데도 있다고 하는 오류가 그 반대의 오류 보다 중대한 오류라고 판단하는 것이다.

p-값의 의미와 해석

 

p-값은 귀무가설 하에서 관찰된 자료 혹은 더 차이가 나는(귀무가설과 멀어지는) 자료를 얻을 확률이다.
이 p-값이 작다는 것은 귀무가설의 확률이 작아져서 대립가설을 받아들인다는 결론을 내린다는 것이다. 하지만 p-값이 충분히 작지 않은(통상적으로 0.05 이상인 경우) 경우, 귀무가설을 기각하지 못하게 되고 귀무가설을 채택하게 된다.

여기서 귀무가설을 채택한다는 것은 귀무가설을 기각하지 못한다는 것을 실무자들이 이해하기 쉽게 이야기하는 것이고 통계문헌에서는 귀무가설을 채택한다는 표현은 절대 사용하지 않고 귀무가설을 기각하지 못한다는 표현만을 사용한다.

대기오염의 예에서 자료분석의 결과 건강에 영향을 많이 주는 것으로 판단되었고 p-값이 매우 작은 경우 대기오염이 건강에 영향을 준다고 결론 내린다.

하지만 대기오염의 영향이 충분히 크지 않아 p-값이 충분히 작지 않은 경우 대기오염과 건강의 연관관계를 보이는데 실패했다고 표현한다.

만약 이를 대기오염과 건강은 무관하다고 결론을 내렸다면 이는 통계적 가설검정을 이해하지 못한 틀린 결론이다. 좀 더 일반적으로 이야기 하면 작지 않은 p-값을 가지고 귀무가설을 증명했다고 했다면 이는 틀린 주장이다.

만약 전자파가 건강에 유해하다는 주장을 하고 싶다고 한다면 이를 대립가설로 그 반대의 경우, 즉 전자파는 건강에 무해하다는 것을 귀무가설로 해 가설검정을 해야 하며 작은 p-값은 전자파가 건강에 유해하다는 것을 증명하게 하는 것이다. 반면에 작지 않은 p-값은 전자파가 무해하다는 결론을 내릴 수 있게 하는 것은 아니고 전자파가 유해하다는 것을 증명하지 못했다는 사실만을 보여 줄 뿐이다.

결론

이상에서 보았듯이 작지 않은 p-값을 귀무가설을 증명한 증거로 해석하는 것은 명백한 오류이므로 이러한 해석은 절대 금해야 한다.

현대의 많은 의학 및 역학논문에서 통계학적인 개념의 p-값을 사용한다는 것은 그 결론에 오류가 포함돼 있음을 의미한다는 것이다. 이는 논문에서의 결론이 틀릴 수 있음을 인정하고 있는 것이다.

많은 역학자들은 p-값보다는 효과의 크기를 먼저 보아야 한다고 이야기하고 있는데, 이는 같은 효과의 크기라고 해도 p-값은 표본수에 따라 많이 달라지는 특성을 갖고 있기 때문이다.

또한 최근 대규모 자료의 분석요구가 급격히 증가하면서 기계적인 분석 후 p-값들을 보고 관심변수들의 효과를 판단하는 사례가 매우 빈번해지고 있다.

과학의 여러 분야에서 p-값의 유용성에 대한 논의는 오래 전부터 있었으며 최근 과학잡지 <NATURE>에서는 이에 대한 지적을 하기도 했다(Statisticians issue warning over misuse of P values, Nature 531, p 151, 10 March, 2016).

최근 통계학 분야에서는 p-값에 맹신하는 일부 과학계의 위험성을 극복하기 위한 방법론들의 개발이 활발하다. 최근에 주목을 받는 Causal Inference라는 분야도 단순한 통계적 연관성에 근거한 연구결론이 아니라 '원인-결과'를 이야기할 수 있는 통계적 모형에 대한 연구에 집중하고 있다(Causal Inference for Statistics, Social, and Biomedical Sciences, Guido W. Imbens and Donald B. Rubin, Cambridge University Press, April 6, 2015).

우리가 의학 지식을 받아들일 때 이런 통계적 오류의 가능성을 항상 염두에 두고 해석을 하는 것이 과학을 대하는 솔직한 태도일 것이다.  

개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
* 기사속 광고는 빅데이터 분석 결과로 본지 편집방침과는 무관합니다.