[Practical Statistics for Data Scientists] B팀 Normal & T Distribution
고전 통계학에서 정규분포가 없었으면 다른 분포도 없었을 것입니다. 이건 Central Limit Theorem과도 연관되는데, B팀의 "Central Limit Theorem" 글을 확인 부탁드려요.
일단 정규분포는 종모양으로 생긴 아래와 같은 분포입니다. pdf는 왼쪽과 같습니다. μ랑 σ는 초모수라고 생각하시면 됩니다. 한마디로 데이터의 분포에 따라 임의로 설정되는 값이죠. μ는 모평균을 의미하고, σ는 모표준편차를 의미해요.
확률과 통계시간에 다루어보셔서 알겠지만 σ가 커지면 종모양이 납작해지고, μ값이 커지면 분포 자체가 오른쪽으로 이동합니다. 정규분포의 특이한 점은 똑같고 독립인(iid) 인 정규분포의 선형결합은 똑같은 정규분포라는 것입니다. 대표적인 반례로 베르누이 분포가 있습니다. 베르누이 분포의 합은 이항분포입니다. 그런데 정규분포는 그렇지 않습니다. 그리고 μ랑 σ가 어떤 값을 취하더라도 정규분포의 pdf를 음수 무한대부터 양수 무한대까지 적분하면 1이 되어요.
그리고 μ랑 σ 값에 따라 μ에서 플마 σ를 하면 모평균을 기준으로 68% 데이터를 설명하고, μ에서 플마 2σ를 하면 모평균을 기준으로 95% 데이터를 설명합니다.
표준정규분포는 평균 0 분산 1인 분포로 표준화하는 것입니다. 그래서 정규분포의 수식에 μ랑 σ 값이 각각 0과 1로 대입됩니다. 표준정규분포의 pdf에도 해당사항을 반영하면 됩니다. 오른쪽에 보이는 바와 같이 정규분포에서 모든 데이터 X에 대하여 모평균인 μ를 빼고 모분산인 σ로 나누어 표준화를 진행합니다. 참고로 표준정규분포라는 용어 때문에 표준화랑 정규화를 혼동해서 쓰는 경우가 더럿 있습니다. 그러나 표준화가 올바른 정의입니다. 정규화는 특정 분포가 있으면 크기에 따라 0과 1사이 범위로 값을 축소시키는 것을 의미합니다. Scikit-Learn의 Minmax scaler을 생각하면 되죠.
표준화를 하는 이유는 "비교를 할 수가 있어서"라고 생각하시면 됩니다. 예를 들어 한국의 직장인 연봉 평균이 5000만원, 표준편차가 400만원이고, 일본의 직장인 연봉 평균이 6000만인데 표준편차가 300이라고 생각합시다. (정규분포가 가정된 상태) 그런데 나는 한국에서 5500만을 벌고 일본인친구는 6600만을 버는데, 누가 자기 나라에서 돈을 더 잘버는지 궁금해할 수 있습니다. 모평균과 모분산이 다른 시점에서, 표준화를 진행하면 동일한 분포상에서 값을 비교할 수 있다는 장점이 있는 거죠.
Q-Q plot 내용이 교과서에 있어서 설명드리고자 합니다. Q-Q plot은 Quantile-Quantile plot이라고도 합니다. Quantile은 ‘하위 %의 값’이라고 생각하시면 됩니다. 예를 들어서 데이터가 200개 있고 이 데이터가 작은 값부터 차례대로 정렬되어 있을 때, 60번째 데이터는 60/200 = 30% quantile이라고 생각하시면 됩니다.
Q-Q Plot을 이해하기 위해서는 그림으로 파악하는 것이 편합니다. 저희가 가지고 있는 데이터가 100라고 가정해봅시다. 그리고 이 100개의 데이터를 값이 작은 데이터부터 y(1), y(2)… y(n)이라고 합시다. 그러면 y(1)는 1% quantile, y(2)는 2% quantile... 으로 quantile이 산정될 겁니다. 그 각각의 y(i)가 우리의 x축에 들어가는 것입니다.
그러면 Y축에는 뭐가 들어갈까요? Y축은 표준정규분포의 quantile이에요. 표준정규분포의 quantile은 표준정규분포의 cdf의 역함수에다가 p(i)를 대입해서 산출됩니다. 그러면 표준정규분포의 X축의 값들이 quantile로 변형되어 나올 것이빈다. 여기서 각각의 pi는 (i-1/2)/n을 해서 산출을 합니다. I에서 ½을 빼는 이유는 continunity correction 때문이에요. 우리의 표준정규분포는 연속적인 곡선입니다. 그러나 우리가 이 값들을 각각의 p(i)로 쪼갠다면, 연속형 변수를 이산확률변수로 만드는 셈이 되는 거죠. 이 때 발생하는 오차를 조정하기 위해서 0.5를 빼는 작업을 하는 거랍니다.
그래서 표준정규분포의 quantile이랑 우리의 데이터의 quantile을 비교해봤을 때 직선이면 표준정규분포에 가깝고, 직선이 아니면 표준정규분포에 가깝지 않다는 것을 얘기해요.
이제는 T 분포에 대해서 설명드리고자 합니다. 저희가 여태까지 표준정규분포와 정규분포를 다루었을 때, 모평균과 모분산을 사용했다는 점 기억나시나요? 즉 모수, 전체 모집단을 사용한 거죠? 하지만 현실세계에서 모수 (parameter)를 파악하기는 쉽지 않습니다. 예를 들어서 최근 대통령 선거를 생각해볼게요. 이번에 각 여론조사기관, 방송사들이 출구조사를 토대로 각 대통령 후보의 투표율을 산정했잖아요? 이때도 투표한 모든 사람에 대하여 “너 누구 뽑았니“라고 물어보지 않습니다. 이렇게 출구조사 대상이었던 몇몇 사람들.. 이걸 이제 샘플이라고 할게요. 샘플을 통해 모수를 추정하는 과정에서 t-분포를 사용합니다. 한마디로 샘플에 대한 분포라는 거죠. 특히 모분산에 대한 정보가 없을 때 T-분포를 사용합니다.
T분포에는 다음과 같은 특징이 있어요.
이제는 n이 증가하면 T분포가 표준정규분포에 수렴하는 과정을 설명드리겠습니다. 그 전에 두 가지 상식을 알고 가져야 합니다.
이제 본격적으로 증명을 하겠습니다. 아래의 수식을 잘 읽어보고 어떻게 T분포가 표준정규분포에 수렴하는지 확인해보세요. 참고로 이 증명은 Central Limit Theorem과는 무관합니다. CLT는 sampling distribution의 수렴을 설명하는 데에 반해 해당 증명은 t분포의 sample 크기에 대하여 설명하고 있기 때문이죠.
정규분포와 T-분포는 도메인과 상관없이 모든 곳에서 사용됩니다. 데이터들의 표본평균을 모평균과 비교하거나, 두 데이터들의 모평균에 차이가 있는지 비교하거나, 회귀분석에서 두 변수 간의 차이가 있는지 파악할 때도 T-분포를 사용합니다. 머신러닝, 딥러닝에서도 정형/비정형 데이터를 전처리할 때 표준화를 사용하여 데이터를 평균 0, 표준편차 1의 형태로 변환하곤 합니다. 또한 T-분포 같은 경우 샘플통계량을 나타내는 분포여서 현재와 같은 빅데이터 시대에는 경시될 가능성이 매우 높은데, 모수를 정확히 알 수 없는 특수한 상황(ex: experimental design)에는 여전히 T-분포가 필요합니다.
작성자: KUBIG 14기 박상준
댓글 영역