본문 바로가기
LIFE/Book, Film, Game, and Media

[데이터 넥스트 레벨 챌린지] 새빨간 거짓말, 통계 (1)

by 브로페 2024. 4. 8.

* 본 포스팅은 데이터리안에서 주관하는 데이터 넥스트 레벨 챌린지의 일환으로 작성된 독후감입니다.

 



 
처음 통계와 데이터를 접하고 이를 실생활과 업무에 적용할 때, 우리는 통계를 통한 분석 기법이 꽤 정확하다고, 항상 기존의 방식보다 더 나은 결론을 제시한다고 확신한다. 하지만 통계의 가장 기초적인 개념인 표본과 평균만 배우더라도 통계를 무비판적으로 맹신하는 것이 얼마나 위험한 것인지 깨닫게 된다. 가장 쉬운 개념이자, 통계의 가장 원초적인 오류가 드러나는 두 개념에 대해, 책에서는 잘못된 사용법을 사례와 함께 제시한다.


대용량의 데이터를 처리할 수 있는 빅데이터 시대에 '표본'은 조금 덜 사용하게 되는 개념이다. 하지만 '평균'은 나도 데이터 분석을 할 때마다 항상 사용하는 개념인 동시에 가장 무비판적으로 수용하고 있던 개념이기도 했다. 책을 읽은 후 업무상 존재하는 나의 '평균'들을 돌이켜보면, 나는 산술평균을 항상 사용했지 이를 대체할 수 있는 다른 개념 (중간값, 최빈값) 등에 대해서는 한 번도 사용해보는 것을 고려한 적이 없었다.


전사적으로 산술평균을 가장 많이 수용하고 있다보니 그럴 수 있지만, 앞으로는 항상 산술평균이 유의미한 척도인지 미리 확인해보는 습관을 기르는 것도 좋겠다는 생각이 든다. 데이터의 분포가 산술평균을 대표값으로 인정할 수 있는 범주에 있는지, 그렇지 않다면 다른 값들이 대표성을 지니는지 등을 미리 살펴본다면, 나는 평균을 아무 생각없이 사용하는 분석가에서 벗어나 항상 의문을 가지고 검증하는 치밀한 분석가로 거듭날 수 있을 것 같다.