[Practical Statistics for Data Scientists] B팀: ANOVA
분산분석(analysis of variance): 여러 그룹 간의 통계적으로 유의미한 차이를 검정하는 통계적 분석이다. ANOVA를 통계적으로 이해하기 위해선 F통계량을 함께 알아야한다. 먼저, F 통계량부터 알아보자
F 통계량은 residual error(잔차 오차)로 인한 분산과 그룹 평균의 분산에 대한 '비율'을 기초로 한다. 즉, (그룹 간 차이 정도 / 불확실도)로 표현할 수 있다.
분산분석(Analysis of Variance, ANOVA)은 위의 과정을 거쳐 계산된 F value가 유의하게 큰지 여부를 확인해서 최소한 한 표본 집단은 다른 모집단에서 나왔는지 여부를 검증한다.
예시로 더 알아보자. 우리에게는 5명의 사용자가 무작위로 한 곳에 접속되는 4가지의 웹 페이지가 주어졌다.
한 쌍씩(pairwise) 비교를 해 본다면(ex: 1페이지와 2페이지) 이들 사이에 상당한 차이가 있는 것처럼 보인다. 그렇다면, '모든 페이지에 할당된 시간이 무작위인가?' 즉, 우연히 페이지에 있는 시간이 차이가 나냐는 질문에 어떻게 대답할 수 있을까? 이 때 사용하는 것이 ANOVA이다.
ANOVA resampling algorithm
about R
resampling 기법을 활용해 구한 p값은 0.09278이다. 즉 통상 임계값 5%에 미치지 못하기 때문에 4가지 페이지 간의 차이는 우연히 발생했다고 할 수 있다.
F통계량을 활용한 ANOVA
앞서 살펴본 코드를 F값을 활용해 작성할 수도 있다. F 통계량이 높다면 차이가 크다는 것이기 때문에 이 값이 높을 수록 통계적으로 유의미하다.
: 지금까지 변하는 요소가 하나(웹 페이지 방문시간)인 ANOVA였다면, 이원 분산분석은 두 가지 인자 a,b를 고려한다.
(인자 a:p개의 수준, b:q개의 수준) 즉 결과에 영향을 미칠 수 있는 또 다른 main effect(독립변수 간 개별적인 효과)와 interaction effect(주 효과들 간의 교호수준: 요인 a의 수준에 따라 요인b가 달라지는 것)을 분석한다. 아래 표를 통해 이원 분산분석을 한 눈에 확인할 수 있다.
카이제곱검정은 횟수 관련 데이터에 주로 사용되며, 예상되는 분포에 얼마나 잘 맞는지를 검정한다. 오차 혹은 편차에 대한 분석을 수행할 때 카이제곱 분포를 이용하면 이 오차 혹은 편차가 우연히 발생할 수 있다고 볼 수 있을만한 수준의 것인지 그렇지 않은지를 판별할 수 있다.
resampling algorithm
Q. resampling을 하지 않으면? p값이 약간 작다!(0.4348 < 0.4893) 카이제곱통계분포가 실제 통계분포가 아니라 근사치이기 때문
: 독립변수가 하나이고 이론적으로 기대되는 빈도의 분포(frequency distribution)와 관찰한 빈도의 분포를 비교하기 위해 사용할 수 있다.
https://hsm-edu.tistory.com/1213
카이제곱 검정이 세 종류나 있었어?(적합도, 독립성, 동질성)
카이제곱검정은 분할표에서 빈도를 비교하는 것으로 검정을 수행합니다. 빈도를 비교한다는 원리는 동일하지만, 카이제곱분포는 그 목적에 따라 몇가지로 분류됩니다. - 적합도검정 (Goodness of f
hsm-edu.tistory.com
*적합도 검정 이외에도 카이제곱 검정은 다양한 종류가 존재한다.
5개의 맛이 섞여 있는 사탕 주머니에서 총 100의 사탕을 꺼냈다. 예측했을 때는 5가지의 사탕이 골고루 들어있을 것이라고 생각해, 각 20개씩 꺼낼 것이라고 예상했다. 그런데, 포도맛이 기대값보다 눈에 띄게 많이 나온 것을 확인할 수 있었다. 이것은 우연일까?
Q. 바구니 안의 사탕은 5종류 골고루 섞여있는가?
R로 분석한 T-검정
Q. rescailing 값이 1? rescale.p가 TRUE라는 의미는 p 입력인자의 합이 1이 되도록 rescailing 한다는 뜻이다. 이 때 p값은 x(관찰한 데이터)의 확률값을 의미한다.
https://m.blog.naver.com/pmw9440/221987511761
https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/chisq.test
5.34 R로 카이제곱 적합도 검정(Chi-squared goodness of fit test) 실시하기
0. 차례 1. 들어가기 2. 카이제곱 적합도 검정(Chi-squared goodness of fit test) 직접 계산해보기 3. R...
blog.naver.com
결론 : 검정통계량 X-squared가 카이제곱값보다 작기 때문에, 유의미한 차이를 보였다고 말하기 어렵다. 따라서 우연히 골고루 사탕을 꺼내지 못했을 것이다.
: 표본 수가 적을 때 사용하는 카이제곱 검정이다. 발생할 수 있는 모든 순열 조합을 실제로 열거하고, 빈도를 집계한 후 관찰된 결과가 얼마나 극단적으로 발생할 수 있는지에 대해 결정하는 절차를 제공해준다.
댓글 영역