[Practical Statistics for Data Scientists] A팀 : Interpreting the Regression Equation

심화 스터디/Practical Statistics for Data Scientists

[Practical Statistics for Data Scientists] A팀 : Interpreting the Regression Equation

시계는왓치. 2022. 5. 12. 17:32

# Interpreting the Regression Equation

- 회귀분석에서, 종속변수를 예측하는 것뿐만 아니라 회귀식을 보고 변수들 간의 관계를 해석하는 것도 중요하다.

# Correlated Predictors

- 다중회귀에서, 예측변수들 간에 상관관계가 있는 경우가 많다.

{"originWidth":538,"originHeight":133,"style":"alignCenter","caption":"

- Bedrooms의 계수가 음수 : 침실의 개수가 증가할수록 주택 가격이 하락

- 침실의 개수(Bedrooms)와 집의 크기(SqFtTotLiving)간의 상관관계 존재

-> SqFtTotLiving 변수가 회귀식에 포함되어 있기 때문에, Bedrooms는 집의 크기를 고정했을 때 침실 개수의 영향 을 나타냄.

-> 같은 크기의 집에 침실이 많으면 Undesirable.

* 상관관계가 있는 예측변수들을 사용하면 coef 의미 해석에 방해가 될 수 있다.

-> (SqFtTotLiving,SqFtFinBasement,Bathrooms)를 제거한 모델에서는 Bedrooms의 계수가 양수.

기존 모델에서 Bedrooms와 상관관계 높은 예측변수들을 제거한 모델.

# Multicolinearity

- 예측변수들 간의 상관 정도가 높아 회귀분석에 부정적 영향을 미치는 현상

- 예측변수들 간의 극단적인 상관성 <-> 한 예측변수를 다른 변수의 선형결합으로 표현 가능 (완전한 상관관계 경우)

* 다중공선성은 다음 경우에 주로 발생

- 똑같은 변수를 실수로 여러번 넣은 경우

- P개 범주의 변수에 대해 P-1 개 의 더미변수가 아닌 P개의 더미변수를 생성한 경우

- 두 변수가 거의 완전한 상관관계를 갖는 경우

# Confounding Variables

- 회귀식에 포함되어있지 않지만 중요한 영향을 갖고있어 잘못된 결론을 내리도록 하는 변수

- 주택 가격 데이터 회귀 예시 : SqFtlot(토지 규모), Bathrooms, Bedrooms의 계수가 모두 음수

- 중요한 예측변수이지만 회귀식에서 독립 누락된 Location을 회귀식에 포함

-> 우편변호를 5개의 범주로 나누어 다시 회귀(ZipGroup2~ZipGroup5 생성, ZiPGroup1이 Baseline Model)

-> Bedrooms를 제외한 나머지 2개 계수가 양수로 바뀜.

# Interactions & Main Effects

- Main effect : (하나의) 예측변수가 종속변수에 미치는 효과

y ~ x1 + x2 + x3 + ....

- Interaction : 둘 이상의 예측변수의 조합이 종속변수에 미치는 효과

y ~ x1 + x2 + x1*x2 + x3 + ....

- 주택 가격 데이터 회귀 예시 : 지역(ZipGroup)을 포함하는 모델에서, 잘 사는 지역일수록 주택 크기가 가격에 주는 영향이 클 것이라고 예상

-> 주택 크기 * ZipGroup5(가장 잘 사는 지역) 의 계수가 가장 큰 것을 볼 수 있음.

# Regression Diagnostics

- 앞에서 언급한 내용들을 종합적으로 고려해 모델의 적합성을 평가한다.

- 잔차분석을 기본으로 한다.

# Outlier

- 데이터에서 (Q1 - 1.5*IQR, Q3 + 1.5*IQR) 의 범위를 넘는 값을 Outlier라 한다. (IQR = Q3- Q1)

- 회귀식에서는 예측치와 멀리 떨어진 관측치를 Outlier라 함.

-> 표준화잔차의 절대값 클수록 멀리 떨어진 것

# Influential Values

- Influential Observation : 회귀에서 제외되었을 때 큰 변화를 가져오는 값

- influential obs라고 해서 표준화잔차가 큰 것은(outlier인 것은) 아님

-> 높은 leverage를 갖는다고 표현. (leverage : 실제 y값이 예측값에 미치는 영향을 나타낸 값)

- ex) 우측 상단 점을 포함시킨 회귀식과 제외한 회귀식이 큰 차이가 있다.

# 단일 obs의 영향력을 결정하는 추가적인 방법

- Hat value : h_ii > 2(P+1)/n 이면 높은 레버리지를 갖는다고 말할 수 있다.

- Cook's distance : 표준화잔차와 레버리지를 모두 고려한 지표

- 통상적으로 4/(n-p-1) 보다 크면 해당 높은 레버리지를 갖는다고 말할 수 있다.

- ex) 버블차트 :

-> x축 : Hat value, y축 : 표준화잔차, 원의 크기 : 쿡의 거리, 색칠 여부 : 쿡의 거리가 0.08보다 큰 값.

- ex) 원래의 회귀식을 쿡의 거리가 0.08보다 큰 값을 제외한 후의 회귀식과 비교.

-> bathrooms에 대한 계수가 크게 변화했다.

# 등분산성 / 정규성 / 독립성

- 통계적 추론을 위한 세 가지 가정 : 데이터사이언스에서도 모델의 유효성과 관련있으니 주목할만함.

- 잔차에 대해 세 가지 가정을 살펴본다.

# 이분산성

- 주택 가격 회귀식모델에서는 예측값의 크기에 따라 잔차의 분산이 다르게 나타남.

# 정규성

- 주택 가격 회귀식모델에서는 잔차의 분포가 정규분포보다 평균에 집중(꼬리가 길다)

# 독립성

- 주로 시계열 데이터에서, 오차가 독립적이라는 가정을 확인하기도 한다.

-> 더빈-왓슨 통계량 : 잔차의 독립성을 확인할 때 사용, 0~4 사이 값을 가지며 2에 가까울수록

자기상관이 없고 0,4에 가까울수록 자기상관이 심하다.(t-1시점과t시점 잔차의 상관을 측정)

# 편잔차플롯 & 비선형성

<- 하나의 예측변수와 응답변수 사이의 관계 표현

-> 1000~2000 제곱피트의 집 : 가격을 원래보다 낮게 추정

2000~3000 제곱피트의 집 : 가격을 높게 추정

-> SqFtTotliving에 대해 선형항이 아닌 비선형항을 고려할 수 있음.