상세 컨텐츠

본문 제목

[Practical Statistics for Data Scientists] B팀: ANOVA

본문

ANOVA

분산분석(analysis of variance): 여러 그룹 간의 통계적으로 유의미한 차이를 검정하는 통계적 분석이다. ANOVA를 통계적으로 이해하기 위해선 F통계량을 함께 알아야한다. 먼저, F 통계량부터 알아보자

F-Statistic을 기초로 한 ANOVA

F 통계량은 residual error(잔차 오차)로 인한 분산과 그룹 평균의 분산에 대한 '비율'을 기초로 한다. 즉, (그룹 간 차이 정도 / 불확실도)로 표현할 수 있다.

분산분석(Analysis of Variance, ANOVA)은 위의 과정을 거쳐 계산된 F value가 유의하게 큰지 여부를 확인해서 최소한 한 표본 집단은 다른 모집단에서 나왔는지 여부를 검증한다. 

 

평균제곱(mean square) :제곱합을 자유도로 나눈 값, 분산에 대한 추정량

MSt(treatment mean squares)
MSE(residual mean squares)

예시로 더 알아보자. 우리에게는 5명의 사용자가 무작위로 한 곳에 접속되는 4가지의 웹 페이지가 주어졌다.

한 쌍씩(pairwise) 비교를 해 본다면(ex: 1페이지와 2페이지) 이들 사이에 상당한 차이가 있는 것처럼 보인다. 그렇다면, '모든 페이지에 할당된 시간이 무작위인가?' 즉, 우연히 페이지에 있는 시간이 차이가 나냐는 질문에 어떻게 대답할 수 있을까? 이 때 사용하는 것이 ANOVA이다.

 

ANOVA resampling algorithm

  1. 모든 데이터를 한 상자에 담아 놓음
  2. 5개의 값을 갖는 4개의 재표본을 섞어서 추출
  3. 각 그룹의 평균을 기록
  4. 네그룹 평균 사이의 분산을 기록
  5. 2~4단계 여러번 반복

about R

resampling을 적용한 ANOVA

resampling 기법을 활용해 구한 p값은 0.09278이다. 즉 통상 임계값 5%에 미치지 못하기 때문에 4가지 페이지 간의 차이는 우연히 발생했다고 할 수 있다.

 

F통계량을 활용한 ANOVA

앞서 살펴본 코드를 F값을 활용해 작성할 수도 있다. F 통계량이 높다면 차이가 크다는 것이기 때문에 이 값이 높을 수록 통계적으로 유의미하다.

Two-way ANOVA

: 지금까지 변하는 요소가 하나(웹 페이지 방문시간)인 ANOVA였다면, 이원 분산분석은 두 가지 인자 a,b를 고려한다.

(인자 a:p개의 수준, b:q개의 수준) 즉 결과에 영향을 미칠 수 있는 또 다른 main effect(독립변수 간 개별적인 효과)와 interaction effect(주 효과들 간의 교호수준: 요인 a의 수준에 따라 요인b가 달라지는 것)을 분석한다. 아래 표를 통해 이원 분산분석을 한 눈에 확인할 수 있다. 

 

ANOVA - table

 

 

Chi-Square Test

카이제곱검정은 횟수 관련 데이터에 주로 사용되며, 예상되는 분포에 얼마나 잘 맞는지를 검정한다. 오차 혹은 편차에 대한 분석을 수행할 때 카이제곱 분포를 이용하면 이 오차 혹은 편차가 우연히 발생할 수 있다고 볼 수 있을만한 수준의 것인지 그렇지 않은지를 판별할 수 있다.

1) resampling approach

귀무가설: ‘각 헤드라인 모두가 동일한 클릭률은 갖는다’
Pearson residual R: 실제 횟수와 기대한 횟수 사이의 차이
카이제곱 통계량

resampling algorithm

  1. 클릭한 경우, 클릭하지 않은 경우에 대한 박스 만들기
  2. 박스의 내용물을 섞은 후 1000개의 표본을 3번씩 가져와 각각의 클릭 수 계산
  3. 이렇게 얻은 횟수 - 기대한 횟수를 제곱해 합산
  4. 2~3 단계를 1000번 반복
  5. 재표본추출을 통해 얻은 값이 얼마나 자주 관측값을 초과하는 지에 대한 값이 p값임

resampling을 적용한 카이제곱 검정

Q. resampling을 하지 않으면? p값이 약간 작다!(0.4348 < 0.4893) 카이제곱통계분포가 실제 통계분포가 아니라 근사치이기 때문

 

2) Statistical Theory

: 독립변수가 하나이고 이론적으로 기대되는 빈도의 분포(frequency distribution)와 관찰한 빈도의 분포를 비교하기 위해 사용할 수 있다.

ex) 적합도 검정

https://hsm-edu.tistory.com/1213

 

카이제곱 검정이 세 종류나 있었어?(적합도, 독립성, 동질성)

카이제곱검정은 분할표에서 빈도를 비교하는 것으로 검정을 수행합니다. 빈도를 비교한다는 원리는 동일하지만, 카이제곱분포는 그 목적에 따라 몇가지로 분류됩니다. - 적합도검정 (Goodness of f

hsm-edu.tistory.com

*적합도 검정 이외에도 카이제곱 검정은 다양한 종류가 존재한다.

 

5개의 맛이 섞여 있는 사탕 주머니에서 총 100의 사탕을 꺼냈다. 예측했을 때는 5가지의 사탕이 골고루 들어있을 것이라고 생각해, 각 20개씩 꺼낼 것이라고 예상했다. 그런데, 포도맛이 기대값보다 눈에 띄게 많이 나온 것을 확인할 수 있었다. 이것은 우연일까?

Q. 바구니 안의 사탕은 5종류 골고루 섞여있는가?

https://angeloyeo.github.io/2021/11/02/RM_ANOVA.html

R로 분석한 T-검정

Q. rescailing 값이 1? rescale.p가 TRUE라는 의미는 p 입력인자의 합이 1이 되도록 rescailing 한다는 뜻이다. 이 때 p값은 x(관찰한 데이터)의 확률값을 의미한다.

https://m.blog.naver.com/pmw9440/221987511761

https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/chisq.test

 

5.34 R로 카이제곱 적합도 검정(Chi-squared goodness of fit test) 실시하기 ​

0. 차례 1. 들어가기 2. 카이제곱 적합도 검정(Chi-squared goodness of fit test) 직접 계산해보기 3. R...

blog.naver.com

결론 : 검정통계량 X-squared가 카이제곱값보다 작기 때문에, 유의미한 차이를 보였다고 말하기 어렵다. 따라서 우연히 골고루 사탕을 꺼내지 못했을 것이다.

 

피셔의 정확검정

: 표본 수가 적을 때 사용하는 카이제곱 검정이다. 발생할 수 있는 모든 순열 조합을 실제로 열거하고, 빈도를 집계한 후 관찰된 결과가 얼마나 극단적으로 발생할 수 있는지에 대해 결정하는 절차를 제공해준다.

관련글 더보기

댓글 영역