[Practical Statistics for Data Scientists] A팀 Normal & T Distribution
# 정규분포
정규분포는 평균 mu를 중심으로 sigma만큼 퍼져있는 종 모양의 분포입니다. 정규분포는 1733년 드무아브르가 이항 분포에서의 시행 횟수 n이 클 때 확률의 근삿값을 계산하며 처음 언급되었고, 이후 가우스를 거치며 가우스 분포라고도 불립니다.
* 'Nomal' Distribution이라는 이름과 달리 우리가 다룰 데이터들은 대부분 Normal하지 않습니다. 다만, 모분포에 관계없이 정해진 횟수 n만큼의 독립 추출을 반복했을 때, 추출된 값들의 평균이 n이 커짐에 따라 정규분포에 가까워진다는 점은 주목할 만합니다.
# 표준화와 표준정규분포
서로 다른 데이터를 비교할 때, 올바른 비교를 위해서는 각 데이터를 하나의 기준으로 통합하여 관찰할 필요가 있습니다. 데이터에서 모평균 mu를 빼고 그 값을 모분산 sigma로 나누면 평균과 표준편차가 각각 (0, 1)이 되는데, 이처럼 데이터를 Scaling 하는 방법을 표준화(Standardization)라고 합니다. 비슷한 방법으로는 아래의 과정으로 이루어지는 정규화(Normalization)가 있는데, 이는 값의 범위를 0~1 사이로 바꿔줍니다.
정규분포를 따르는 X가 표준화를 거치면 평균과 분산이 (0, 1^2)인 표준정규분포를 따르고, 우리는 이를 Z로 칭하기도 합니다. 그래서 표준정규분포는 Z분포라고 하기도 합니다. 이러한 사실 때문에, 어제 발표에서의 저처럼 표준화와 정규화를 헷갈리는 사람이 많습니다. 우리가 지금 다루고 있는 건 '표준화'입니다.
# QQ-Plot
어떤 데이터가 정규분포를 따르는지 대략적으로 살펴보기 위해, QQ-Plot을 이용할 수 있습니다. QQ-Plot은 두 데이터의 같은 분위수를 Plot으로 표시함으로써, 두 데이터의 분포 간 유사성을 짐작하게 해줍니다.
데이터가 정규분포를 따르는지 보기 위해 x축에는 표준정규분포의 분위수들을, y축에는 우리가 준비한 데이터의 같은 분위수들을 놓게 됩니다. 해당 플롯이 직선에 가까울수록 데이터가 정규분포에 가깝다고 말할 수 있습니다.
# T 분포
T분포는 윌리엄 고셋이라는 사람에 의해 만들어졌는데, 우리가 흔히 T분포를 Student's T-Distribution이라 알고 있는 이유는 고셋이 스튜던트라는 가명을 썼기 때문입니다. 적은 표본으로 모집단에 대한 추론을 위해 만들어진 분포인 T분포는 정규분포와 같이 종형을 이루지만, 꼬리가 조금 두껍습니다. 자유도(표본 크기 n - 1)가 커질수록 이 꼬리가 얇아져 표본정규분포에 근접하게 되고, 자유도 30이 넘어가면 표준정규분포와 거의 유사하다고 합니다.
아래의 식을 보면, T분포는 표준정규분포와는 다르게 모표준편차 sigma가 아닌 표본표준편차 s를 사용합니다. 이를 이용해 모집단에 대한 추정 과정에서, 모분산을 모르는 경우 T분포를 사용할 수 있습니다.
* 고셋은 표본분산 S^2를 계산할 때 n-1이 아닌 n을 사용하였다고 합니다.
작성자 : 15기 김진수
댓글 영역