상세 컨텐츠

본문 제목

[Practical Statistics for Data Scientists] (A팀) Random Sampling and Sample Bias

본문

Random Sampling 이란? 

Population Sample
traditional modern
unknown distribution empirical distribution
strong assumption 필요 assumption 필요 X
더보기

assumption에 대한 추가 설명      

일반적으로 population을 이용해 통계 자료를 구할 때, 수학적 계산을 용이하게 하거나 분포를 구하기 위해 데이터 간의 독립성 등을 가정한다.

반면 Sampling 사용 시, 모든 추론 통계 테스트에서 공통적으로 가정하는 것은 관심 모집단에서 random sampling 기법으로 표본을 수집했다는 것이다. Random sampling 기법으로 표본을 수집한 순간 이미 정제된 데이터를 사용하는 것이므로 추가적인 가정이 필요 없다.                                            


Random Sampling에서 사용되는 용어 정리

  • with replacement : observations are put back in the population after each draw for possible future reselection.
  • without replacement : observations, once selected, are unavailable for future draws.
  • representativeness : Data quality in data science involves completeness, consistency of format, cleanliness, and accuracy of individual data points.

Random Sampling이 중요한 이유

1936년 미국 대선 결과를 2개의 잡지사가 예측

  • Literary Digest : 구독자들을 기반으로 추가적인 조사 정보를 더해 총 1000만 명의 조사 결과 이용 

     → Alf Landon 당선 예측 : 실패

 

  • George Gallup : 2000명에 대해 조사 실행

     → Franklin Roosevelt 당선 예측 : 성공

 

통계에서는 데이터의 양보다 데이터의 질이 중요한 경우가 생각보다 많다. 특히 무언가를 예측하거나 샘플링 할 때, 자주 그러하다. 예측에 사용되거나 샘플링 된 데이터가 전체 데이터를 잘 표현할 수 있어야 정확한 결과를 얻을 수 있다.

 


Size Versus Quality: When Does Size Matter?

일반적으로 시간과 노력을 들여 random sampling을 실행하면 bias를 줄일 수 있고 더 좋은 quality를 가진 데이터를 사용할 수 있다. 만약 데이터가 너무 많다면 missing data와 outliers도 그만큼 많을 것이고 이를 모두 처리하는 것은 현실적으로 매우 힘들다. 하지만 데이터를 샘플링해 사용한다면 이러한 데이터가 있더도 현실적으로 처리 가능한 양으로 줄어들게 된다.

하지만 데이터가 너무 클 뿐만 아니라 sparse하면 이때는 데이터가 많을수록 정확한 예측을 할 확률이 높아진다.


Bias

Measurement or sampling errors that are systematic and produced by the measurement or sampling process

 

bias는 여러가지 형태로 존재할 수 있는데, 이는 식별 가능할 수도 있고 그렇지 않을 수도 있다. 일반적으로 결과에 bias가 있다면 통계 혹은 기계 학습 모델이 잘못 사용되었거나 중요한 변수가 누락된 경우가 대부분이다.


Bias 종류

 

1. Self-Selection Sampling Bias

리뷰, 설문 등으로 얻어진 샘플로부터 통계 결과를 얻었다고 생각해보자. 이는 참여를 한 사람(Self-Selection)에 대한 통계이기 때문에 참여를 하지 않은 집단은 포함되지 않았다. 문제는 참여를 한 집단과 하지 않은 집단이 서로 다른 성향을 가지고 있다면 이렇게 얻어진 통계 결과는 신뢰도가 떨어질 수 밖에 없다.

이러한 경우 차라리 여러 기관에서 비슷한 주제로 설문을 진행한 결과를 비교하는 것이 더 신뢰도가 높을 수 있다. 이 기관들은 모두 Self-Selection된 사람들이 대답을 한 결과이므로 이들 간의 비교는 유의미할 수 있다.

 

2. Selection Bias

데이터를 원하는 현상이 나오거나 혹은 유의미한 결과처럼 보이는 현상이 등장할 때까지 반복적으로 모델링 하는 것

 

3. Regression to the Mean

A phenomenon involving successive measurements on a given variable: extreme observations tend to be followed by more central ones.

 

즉, 평균에서 많이 벗어나는 결과가 나왔을 때, 다음에 관찰되는 결과는 평균에 가까울 확률이 높다.

때문에 이러한 극단적 값에 초점을 맞추게 되면 bias가 생길 수 있다.


Random Selection

위에서 나온 bias를 해결하기 위한 방법이 바로 random selection이다. 문제는 random selection이 매우 어렵다는 것이다.

예를 들어서 어떤 가게에서 손님들의 프로필을 만들고 손님 별로 설문조사를 진행한다고 할 때에는 다음과 같은 사항들을 고려해야 한다. (결론적으로 엄청난 노동력이 필요하다...)

1. 누가 손님인가? - 환불한 사람, 인터넷 리뷰어, 등등 다양한 유형이 있는데 어느 범주 까지 손님으로 삼아야 하는가?
2. 샘플링 절차 구체화 - 100명의 손님을 고른다고 할 때, 어떤 시간대, 어떤 시간 간격으로 뽑아야 하는가?
3. 만약 stratified sampling을 진행하고 각 카테고리 별로 인원 수가 다르면 가중치를 주어 샘플 사이즈를 같게 만들어 주어야 한다.​

Sample Mean Versus Population Mean

  • \(\bar{x}\) : mean of a sample from a population
  • \(\mu\) : mean of a population

(일반적으로 \(\bar{x}\)를 이용해 \(\mu\)를 예측한다)


(추가) 2022 대선 사전 투표 예측 결과 분석

2022 대선의 결과를 보면 실제 투표 결과와 출구 조사 결과가 매우 유사한 것을 볼 수 있다.

특히 지상파 3사에서 조사한 결과를 보면 윤석열 국민의힘 대선 후보가 이재명 더불어민주당 대선 후보를 0.6% 차로 앞설 것이라고 예측했는데, 실제 격차가 0.73% 인 것으로 보아 예측이 매우 정확한 편이었다는 것을 알 수 있다.

그렇다면 어떻게 이렇게 정확한 결과를 얻을 수 있었을까?

지상파 3사와 조사 · 분석 기관 쪽은 사전 투표 직후, 여론조사 공표 금지 기간인 지난 6, 7일 이틀에 걸쳐 실시한 1만 명 샘플 전화 여론조사를 정확성을 높이는 주요한 요인으로 꼽았다. 기존에는 현장 조사 결과 만을 가지고 예측을 진행했었는데 이번 대선에서 처음으로 전화 여론조사 결과를 바탕으로 사전 투표 예상 득표율을 산출해 당일 투표 현장 조사 결과를 보정했다. 그동안 사전 투표 예상 득표율은 중앙선관위원회가 여론조사기관에 넘기는 지역·성·연령별 인구통계학적 자료를 반영해서 산출했다. 같은 연령, 같은 성별이라면 사전 투표 참여자나 당일 투표 참여자나 같은 정치 성향을 가질 것이라고 가정한 것이다.

하지만 선거를 거듭하며 2017년 이후 젊은 세대와 진보 성향의 유권자가 사전 투표를 훨씬 많이 한다는 것을 알게 되었고 때문에 민주당 후보의 득표가 과소예측되는 문제가 발생했다고 한다. 이 문제를 개선하기 위해 이들은 지난해 4·7 재보선을 ‘테스트베드’로 삼았다. 여론조사 공표 금지 기간에 전화 여론조사를 실시해 선거 뒤 이 데이터를 검증해보는 등 여러 차례 시뮬레이션과 연구를 거듭했다.

실제로 전화 여론조사는 응답자가 거짓으로 말하는지 아닌지 검증할 수 없기 때문에 이 결과를 현장 출구조사와 섞는 것에 대한 우려도 많았다고 한다. 결국 초반에 1천 ~3천 명 정도를 대상으로 생각했던 전화 여론조사의 대상을 1만 명까지 늘리는 것으로 결정을 바꾸었다고 한다. 1만명 샘플의 전화 여론조사에선 사전투표를 했다고 응답한 사람이 5천명을 넘었는데 이는 실제 사전투표율보다 조금 더 많은 결과였다. 여기에 선관위의 인구통계학적 구성을 적용했다. 이렇게 산출된 사전투표 득표율은 51:44로 이재명 후보가 윤석열 후보를 앞선 것으로 예상됐는데, 당일 현장 조사는 그 수치가 반대로 나왔다고 한다. 결국 두 조사 결과를 적절히 섞어 사용한 것이 예측에 큰 도움이 되었던 것이다.

https://www.hani.co.kr/arti/politics/politics_general/1034350.html

 

 

14기 이연정

관련글 더보기

댓글 영역