About KUBIG
장기 프로젝트
심화 스터디
-
[Practical Statistics for Data Scientists] B팀: Principal Component Analysis
데이터분석을 하면서 변수들끼리 상관관계가 매우 높거나, 한 변수가 다른 변수의 선형결합일 경우.(=선형종속인 상태)도 있습니다. PCA(Principal Component Analysis)를 사용하면 이러한 변수들을 찾아내고 수정할 수 있습니다. PCA의 기본적인 아이디어는 기존 데이터셋에 특정 상수(loading)와의 선형결합으로 새 변수를 생성하는 것입니다. 이러한 변수들을 Principal Components라고 합니다. 그리고 PCA를 통해 기존 데이터셋의 변수들의 “variability”를 유지하면서 기존 데이터셋의 변수 개수보다 적은 개수의 변수들을 생성하고자 합니다. PCA의 간단한 예는 다음과 같습니다. (사진출처: Practical Statistics for Data Scientists ..
2022.07.29 18:24 -
[Practical Statistics for Data Scientists] A팀: K-Means & Hierarchical Clustering
K-Means Clustering 각 K개의 cluster의 평균과의 거리 제곱 합을 최소로 하도록 데이터를 나누는 방법으로 각 cluster가 같은 데이터 개수를 갖진 않지만 가장 잘 분리하는 알고리즘이다. K-Means Algorithm 각 데이터를 가장 평균과의 거리가 가까운 cluster에 할당한다(처음에는 랜덤 할당) 할당된 데이터가 포함된 cluster의 평균을 계산한다. → 위 알고리즘에서 더 이상 cluster에 할당하는 데이터가 변하지 않을 때까지 즉, 수렴할 때까지 반복한다. → 처음에는 랜덤 할당을 하므로 initial 값을 여러 번 주어 반복하는 것을 권장한다. syms
2022.07.29 11:40 -
[Practical Statistics for data science] A팀: Scaling and Categorical Variables
# Scaling 스케일링(scaling): 데이터의 범위를 늘리거나 줄이는 방식으로 여러 변수들이 같은 스케일에 오도록 하는 것 비지도학습에 있어 데이터를 적절히 스케일링해야 하는 경우가 종종 있습니다. # K-Means Clustering 에서 Scaling 유무에 따른 결과 비교 위의 두 결과 모두 loan_data를 4개의 Cluster로 분류한 결과입니다. Scaling을 하지 않은 [결과 1]에서 Cluster에 속한 data 개수를 나타내는 'size'가 고르지 않습니다. 여러 Feature들 가운데 그 값이 큰 'annual_inc', 'revol_bal'의 값이 분류에 큰 영향을 준 것으로 보입니다. Scaling(z-score로 변환)을 거친 [결과 2]에서는 'size'가 네 개의 C..
2022.07.29 02:18 -
[Practical Statistics for data science] B팀: K-Means & Hierarchical Clustering
K-Means Clustering Clustering(군집화)이란 데이터를 서로 다른 그룹으로 분류하는 기술을 말한다. 각 그룹에는 서로 비슷한 데이터들이 속하며, 클러스터링의 목적은 데이터로부터 유의미한 그룹들을 구하는 것이다. K-Means는 최초로 개발된 클러스터링 기법으로서 알고리즘이 상당히 간단하고 데이터가 커져도 손쉽게 사용할 수 있다는 장점이 있다. K-Means는 데이터를 K개의 클러스터로 나눈 뒤, 할당된 클러스터의 평균(클러스터 안에 속한 레코드들의 평균 벡터)과 포함된 데이터들의 거리 제곱합이 최소가 되도록 한다. 데이터들의 거리 제곱합을 클러스터 내 제곱합 혹은 클러스터 내 SS라고도 한다. 또한, 클러스터들끼리는 최대한 멀리 떨어지도록 한다. 예시를 하나 들어보면서 K-Means에..
2022.07.28 14:04 -
[Practical Statistics for Data Scientists] B팀: Bagging and the Random Forest
앙상블 모델은 단일 모델을 사용하는 것보다 더 나은 성능을 보인다. 앙상블의 간단한 버전은 다음과 같은데, 데이터에 대해 예측 모델을 만들고 그 결과를 기록한다. 같은 데이터에 대해 여러 모델을 만들고 결과를 기록한다. 각 record에 대해 예측된 결과들의 평균을 구한다. 즉, 앙상블은 여러 모델의 집합을 이용해서 하나의 예측을 이끌어내는 방식이다. 하지만, 우리가 자주 사용하는 앙상블 기법은 bagging과 boosting이라는 기법이며, 그 모델로는 Random forest와 Boosting tree가 있다. Bagging bagging(boostrap aggregating)의 핵심은 복원추출이라고 할 수 있다.(이것만 빼면 기본 앙상블과 동일하다) 만들 모델 개수 M과 모델을 만드는 데 사용할 레..
2022.07.28 11:46