2017.08.07

선택편향, 내생성, 베이즈의 정리

유리 브람, 『통계적으로 생각하기』를 읽고

이 책은 통계의 핵심 개념 3가지를 일상적인 예시를들어 쉽게 설명한다. 3가지는 선택편향, 내생성 그리고 베이즈의 정리이다.

세상을 인식할 때 부분을 경험하고 그것을 개념화하는데 이 과정에서 우리는 추론 하게된다. 만약 인지한 사례들이 편향되었다면, 그로부터 얻은 추론은 잘못될 확률이 크다. 통계학에서는 이러한 문제를 선택편향 (selection bias)이라고 부른다. 스스로 선택편향이 자기인식에 미치는 영향들을 생각해보게 되었다. 종종 나에대해 들어오는 의견들의 표본은 매우 선택 편향적일것이다.

내생성의 사전적 의미는 "해당 시스템 내에서 결정되거나 생성되는 것을 내생성적이라 한다"이다. 유명한 격언인 "모든 상관관계는 인과관계를 나타내지 않는다"라는 유명한 말처럼, 인과관계인 것처럼 위장한 상관 관계가 내생성 문제의 한 종류이다. 사건 A와 B의 원인은 C에 있으나 A와 B가 상관관계가 있다고 해서 A, B를 인과관계로 파악하는 오류이다. 원인과 결과를 뒤집어서 생각하는 것도 내생성 문제중 하나이다.

"당신의 애인이 이성과 밤 10시에 술을 먹었을 때, 그것이 바람일 확률은?"같이 Y가 일어났다는 제약 아래 X가 일어날 확률을 구하는 것을 조건부 확률이라고 한다. 베이즈 정리는 특정 사건에 대한 임의와 가정(A)에 실제 자료나 증거(B)를 반영하여, 증거가 일어났을 때 특정 사건(가정이 발생할)에 대한 확률을 구하는데 관심이 있다. 베이즈의 정리는 이러한 확률을 구하는데 대안 가설들의 확률을 살펴보는 것이다. 셜록 홈즈는 "불가능을 제거하고 나면, 남은 것이 아무리 일어날 것 같지 않은 것이라도 그것이 진실이다"라는 말을 했다. 즉 대안 가설들을 살펴보았을 때, 가설이 매우 낮은 확률을 갖더라도 특정 증거에대한 가설이 일어날 확률은 매우 높아질 수 있다는 이야기이다.