KUBIG 2022-1 활동 블로그

고정 헤더 영역

글 제목

메뉴 레이어

KUBIG 2022-1 활동 블로그

메뉴 리스트

  • 홈
  • 태그
  • 분류 전체보기 (109)
    • 소개 (4)
    • 방학 세션 (13)
      • 방학 스터디 (5)
      • KUBIG 미니 프로젝트 (8)
    • 심화 스터디 (90)
      • Practical Statistics for Da.. (44)
      • 시각화 (11)
      • 강화학습 (11)
      • 금융데이터 (5)
      • 분류 예측 (16)
      • 이미지 (3)
    • 장기 프로젝트 (0)
      • Instagram Youtube 썸네일 기반 게시.. (0)
      • 고대 신문 프로젝트 (0)
      • 도로 위 사물 판단(Object Detection.. (0)
      • 분류 예측 1팀 (0)
      • 분류 예측 2팀 (0)
      • 분류 예측 3팀 (0)
      • 식당 및 카페 추천 시스템 (0)
      • 음악 추천 시스템 (0)
      • 텍스트 (0)
    • 알쓸쿠잡 (1)

검색 레이어

KUBIG 2022-1 활동 블로그

검색 영역

컨텐츠 검색

심화 스터디

  • [Practical Statistics for Data Scientists] B팀: Principal Component Analysis

    2022.07.29 by 점핑노루

  • [Practical Statistics for Data Scientists] A팀: K-Means & Hierarchical Clustering

    2022.07.29 by dudwnqkr

  • [Practical Statistics for data science] A팀: Scaling and Categorical Variables

    2022.07.29 by 시계는왓치.

  • [Practical Statistics for data science] B팀: K-Means & Hierarchical Clustering

    2022.07.28 by 혁수

  • [Practical Statistics for Data Scientists] B팀: Bagging and the Random Forest

    2022.07.28 by 정영희

  • [Practical Statistics for Data Scientists] A팀: K-Nearest Neighbors

    2022.07.25 by 시계는왓치.

  • [Practical Statistics for Data Scientists] A팀: Bagging and the Random Forest

    2022.07.24 by yeonjeong

  • [Practical Statistics for data science] A팀: Boosting

    2022.07.23 by 최끝장1234

[Practical Statistics for Data Scientists] B팀: Principal Component Analysis

데이터분석을 하면서 변수들끼리 상관관계가 매우 높거나, 한 변수가 다른 변수의 선형결합일 경우.(=선형종속인 상태)도 있습니다. PCA(Principal Component Analysis)를 사용하면 이러한 변수들을 찾아내고 수정할 수 있습니다. PCA의 기본적인 아이디어는 기존 데이터셋에 특정 상수(loading)와의 선형결합으로 새 변수를 생성하는 것입니다. 이러한 변수들을 Principal Components라고 합니다. 그리고 PCA를 통해 기존 데이터셋의 변수들의 “variability”를 유지하면서 기존 데이터셋의 변수 개수보다 적은 개수의 변수들을 생성하고자 합니다. PCA의 간단한 예는 다음과 같습니다. (사진출처: Practical Statistics for Data Scientists ..

심화 스터디/Practical Statistics for Data Scientists 2022. 7. 29. 18:24

[Practical Statistics for Data Scientists] A팀: K-Means & Hierarchical Clustering

K-Means Clustering 각 K개의 cluster의 평균과의 거리 제곱 합을 최소로 하도록 데이터를 나누는 방법으로 각 cluster가 같은 데이터 개수를 갖진 않지만 가장 잘 분리하는 알고리즘이다. K-Means Algorithm 각 데이터를 가장 평균과의 거리가 가까운 cluster에 할당한다(처음에는 랜덤 할당) 할당된 데이터가 포함된 cluster의 평균을 계산한다. → 위 알고리즘에서 더 이상 cluster에 할당하는 데이터가 변하지 않을 때까지 즉, 수렴할 때까지 반복한다. → 처음에는 랜덤 할당을 하므로 initial 값을 여러 번 주어 반복하는 것을 권장한다. syms

심화 스터디/Practical Statistics for Data Scientists 2022. 7. 29. 11:40

[Practical Statistics for data science] A팀: Scaling and Categorical Variables

# Scaling 스케일링(scaling): 데이터의 범위를 늘리거나 줄이는 방식으로 여러 변수들이 같은 스케일에 오도록 하는 것 비지도학습에 있어 데이터를 적절히 스케일링해야 하는 경우가 종종 있습니다. # K-Means Clustering 에서 Scaling 유무에 따른 결과 비교 위의 두 결과 모두 loan_data를 4개의 Cluster로 분류한 결과입니다. Scaling을 하지 않은 [결과 1]에서 Cluster에 속한 data 개수를 나타내는 'size'가 고르지 않습니다. 여러 Feature들 가운데 그 값이 큰 'annual_inc', 'revol_bal'의 값이 분류에 큰 영향을 준 것으로 보입니다. Scaling(z-score로 변환)을 거친 [결과 2]에서는 'size'가 네 개의 C..

심화 스터디/Practical Statistics for Data Scientists 2022. 7. 29. 02:18

[Practical Statistics for data science] B팀: K-Means & Hierarchical Clustering

K-Means Clustering Clustering(군집화)이란 데이터를 서로 다른 그룹으로 분류하는 기술을 말한다. 각 그룹에는 서로 비슷한 데이터들이 속하며, 클러스터링의 목적은 데이터로부터 유의미한 그룹들을 구하는 것이다. K-Means는 최초로 개발된 클러스터링 기법으로서 알고리즘이 상당히 간단하고 데이터가 커져도 손쉽게 사용할 수 있다는 장점이 있다. K-Means는 데이터를 K개의 클러스터로 나눈 뒤, 할당된 클러스터의 평균(클러스터 안에 속한 레코드들의 평균 벡터)과 포함된 데이터들의 거리 제곱합이 최소가 되도록 한다. 데이터들의 거리 제곱합을 클러스터 내 제곱합 혹은 클러스터 내 SS라고도 한다. 또한, 클러스터들끼리는 최대한 멀리 떨어지도록 한다. 예시를 하나 들어보면서 K-Means에..

심화 스터디/Practical Statistics for Data Scientists 2022. 7. 28. 14:04

[Practical Statistics for Data Scientists] B팀: Bagging and the Random Forest

앙상블 모델은 단일 모델을 사용하는 것보다 더 나은 성능을 보인다. 앙상블의 간단한 버전은 다음과 같은데, 데이터에 대해 예측 모델을 만들고 그 결과를 기록한다. 같은 데이터에 대해 여러 모델을 만들고 결과를 기록한다. 각 record에 대해 예측된 결과들의 평균을 구한다. 즉, 앙상블은 여러 모델의 집합을 이용해서 하나의 예측을 이끌어내는 방식이다. 하지만, 우리가 자주 사용하는 앙상블 기법은 bagging과 boosting이라는 기법이며, 그 모델로는 Random forest와 Boosting tree가 있다. Bagging bagging(boostrap aggregating)의 핵심은 복원추출이라고 할 수 있다.(이것만 빼면 기본 앙상블과 동일하다) 만들 모델 개수 M과 모델을 만드는 데 사용할 레..

심화 스터디/Practical Statistics for Data Scientists 2022. 7. 28. 11:46

[Practical Statistics for Data Scientists] A팀: K-Nearest Neighbors

# K-Nearest Neighbors - KNN은 구현이 간단하면서도 준수한 성능을 가진 Classifcation Algorithm 입니다. 작동 원리는 다음과 같습니다. 1. 가까운 K개의 이웃을 찾는다. 2. [분류] K개의 이웃 중 가장 많은 이웃이 속한 집단으로 새로운 데이터를 할당한다. 3. [예측] K개의 이웃의 평균을 구해 그 값을 새로운 데이터의 값으로 한다. # Lazy Model - KNN은 모델을 별도로 구축(학습)할 필요가 없습니다. Decision Boundary를 Train Data 통해 만든 후에 Test Data를 모델에 적용하는 방식이 아니라, 새로운 데이터가 주어지면 그제야 주변의 K개 Data를 보고 새로운 데이터를 분류하는 방식입니다. 이러한 점에서 KNN은 게으른 ..

심화 스터디/Practical Statistics for Data Scientists 2022. 7. 25. 19:26

[Practical Statistics for Data Scientists] A팀: Bagging and the Random Forest

Ensemble Methods 1096년, 통계학자 Francis Galton이 영국의 한 박람회를 방문했는데 여기서 소의 몸무게를 맞히기 위한 대회가 개최 중이 었다. 이 대회에서는 800개의 추측이 답안으로 제출되었는데 대부분 다른 값을 가지고 있었다. 놀라운 점은 이렇게 각기 다른 추측값 800개를 이용해 평균과 중위수를 구했더니 소의 실제 무게와 1%도 차이나지 않았다는 점이다. 즉 하나의 추측값은 실제 값과 다소 다를 수 있지만 추측 값들을 여러 개 모아 평균을 내면 좀 더 실제 값에 가까운 값을 얻을 수 있다는 것을 발견한 것이다. James Surowiecki는 그가 저술한 '군중의 지혜'에서 이 현상을 설명했다. 현재 모델링을 할 때 이 현상을 배경으로 하는 '앙상블 기법'을 사용하는데 이..

심화 스터디/Practical Statistics for Data Scientists 2022. 7. 24. 21:45

[Practical Statistics for data science] A팀: Boosting

오늘 포스팅은 KUBIG 정규세션 스터디의 일환으로 "Boosting"에 대해 발표를 목적으로 작성하게 됐다. 스터디는 "Practical Statistics for Data Scientists" 라는 도서를 공부하고 한 주간 특정 부분을 맡아서 발표를 하는 식으로 진행된다. 따라서 지금 작성하는 포스팅의 모든 내용은 모두 이 책에 기반으로 작성되었음을 알린다. 단일 모델을 회귀, 예측에 사용하는 것보다 여러모델을 사용하여 결과를 만들어 내는 앙상블 방식이 일반적으로 더 좋은 성능을 낸다고 알려져있다. 이러한 앙상블 모델을 만들기 위해 사용하는 방법은 크게 대표적으로 Bagging, Boosting이 있다. 이번 포스팅에서는 이 중 Boosting에 대해서 설명하고자 한다. Boosting은 Adaboo..

심화 스터디/Practical Statistics for Data Scientists 2022. 7. 23. 13:28

추가 정보

인기글

페이징

이전
1 2 3 4 ··· 12
다음
TISTORY
KUBIG 2022-1 활동 블로그 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바