Inuit Blogged

스토리가 있는 통계학 본문

Review

스토리가 있는 통계학

Inuit 2023. 8. 19. 07:35

1️⃣ 한줄 

통계를 이야기로 푸는 컨셉, 막힘없는 전문성까지 딱봐도 수작어야할텐데, 뭔가 아쉽다

 

Inuit Points ★★★☆☆

수학중에 직관적으로 이해하기 어려운 부분 하나가 통계입니다. 대충 이해해도 사는데 지장 없는게 다행이랄까요. 하지만, 문과, 이과 포함해서 대규모 자료를 처리하는 연구에선 통계가 필수적입니다. 흔히 p값으로 표현되는 통계량과 기타 통계 이면의 개념을 일상 이야기과 엮어 설명하는 책입니다. 다만 제목처럼 재미나진 않습니다. 별 셋 줍니다.

 

🧑‍❤️‍👩  To whom it matters 

  • p-value 자꾸 나올 때마다 이게 뭔가 싶다가도 대략 넘어가던 사람 = 바로
  • 사회과학 연구자 또는 그런 논문 많이 보시는

 

🎢 Stories Related 

  • 저자는 의료 임상데이터의 통계적 처리와 분석 전문가입니다.

What is p-value anyway?

: 34 stories to help you actually understand statistics

Andrew Vickers, 2010

 

🗨️ 좀 더 자세한 이야기

저는 이과이고 수학을 특별히 했고 공대를 졸업했으니 기초 수준의 통계는 아는 편입니다. 한참후, 비즈니스 스쿨에서 조직행동론을 배울 통계처리에 대한 내용이 나와 놀랐습니다. 심리학은 실험이 중한 수단이고 통계처리가 핵심 기술이란 점이 신선했죠. 아무튼 그때 p-value 거론 되었고, 조직 경영과는 무관한 일이니 대충 외우고 넘어갔던 기억이 있습니다. p값이 작으면 성공.. 이런 식으로요. ^^

 

 그런 면에서 제목은 저를 위한 같았습니다. "What is p-value anyway?" 그래서 p값이 뭔데?

 

명쾌하진 않지만 의문은 풀었습니다.

귀무가설을 기각할만큼 극히 드문 일이 벌어지는 확률이랍니다.

 

이에 해당하는 스토리는, 자기 아들이 칫솔이 말랐는데 이를 닦았다고 거짓말 하는 상황에서, 이를 정말 닦았는데도 칫솔이 마를 확률이라고 이야기하죠. p 낮으면 그런 일이 있긴 어렵고 거짓말이라고 본다고 설명합니다. 그래도 알쏭달쏭하죠.

 

지점이 책의 장점과 한계 같습니다.

통계치를 이론적으로 알고 있는 사람이 다양한 스토리로 통계적 의미를 설명하는데, 막상 (한국의 독자에겐) 사례가 와닿지 않거나, (이과생 특유의) 썰렁한 유머와 비유로 내내 서늘한 기운을 느끼며 읽게 됩니다.

 

복잡한 내용은 부록으로 배려까지도 좋았어요. 그래도 스토리만 따라가다보면 재미없이 흩어지는 사소한 이야기들의 모음집이고, 통계로 들어가면 차라리 쉬운 언어로 통계의 의미를 차근차근 설명하는 것보다도 효과가 떨어집니다. 실은 p값도 책에 써둔 내용만으로는  와닿지 않아 인터넷 뒤져보고서야  확실히 알게 되었으니 스토리의 보조를 받은 같아요.

 

책의 34 스토리는 p 말고도 다양한 통계의 개념과 통상적으로 저지르는 오류를 말합니다. 정규분포나 신뢰구간, 교락(confounding) 제거를 이야기합니다. 기본적 통계 개념보다는, 미묘한 오류에 대한 내용들이 저는 좋았습니다.

 

특히 lead time bias 인상적이었습니다. 통계 데이터를 다룰 집단의 시차가 은연중 다른걸 모르고 넘어갈때 생기는 문제를 설명합니다. 임상에선 의사 진단과 CT장비 사례를 다루는데, CT장비가 좋아서라기보단 CT 찍는 시점이 의사 진단보다 앞서기 때문에 CT집단의 진단-치료의 수치가 높게 나오는 사례를 듭니다.

 

평균으로의 회귀도 도움이 되었어요. 주사위 123 경우 다시 던지게 하는 집단의 평균은 살짝 높게 나오듯, 무심코 '수치가 잘못나왔구나'하고 다시 측정한다면, 이게 편향을 있음을 설명합니다.

 

그리고 저도 종종 보던 사례지만, p값을 과하게 사용하는 경우도 짚어둡니다. p값은 증거의 강도이지 효과의 크기가 아닌데, p값을 현란하게 비교하면서 호들갑 떠는 경우죠.

 

통계처리를 없으니 처리된 통계량만 보던 저로선 깨달음이 많던 대목이었습니다. 저자가 말하듯, 수많은 동료 연구자들이 통계의 의미도 모른채 통계 패키지 돌린 숫자에 만족하고 넘어가는 사례가 비일비재하니 그렇습니다.

 

저자의 핵심 주장이 공감갑니다.

"과학이 모른는걸 통계가 알려줄순 없다."

톱다운으로 생각하는 공학과 경영학의 사고에 익숙한 관점이, 통계에 정통한 전문가의 관점과도 결국은 하나로 통한다는게 좋았습니다.

'Review' 카테고리의 다른 글

다크 데이터  (0) 2023.09.02
얼굴 없는 중개자들  (0) 2023.08.26
대한민국 인구트렌드  (0) 2023.08.15
그렇게 쓰면 아무도 안 읽습니다  (0) 2023.08.12
픽사 스토리텔링  (0) 2023.08.05