본문 바로가기
AI SCHOOL/WIL

[WEEK 13] 멋쟁이사자처럼 AI 스쿨 13주차

2023. 3. 16.

13주차에는 머신러닝 여러 모델을 다루어 분류, 회귀 예측을 했다. 더 좋은 결과를 얻기 위한 과정을 경험했다.

이번주의 키워드로 scikit-learn, Classification(분류), Regression(회귀), RandomForest, ExtraTrees, GradientBoosting, train_test_split, encoding, cross validation(교차 검증), GridSearchCV를 선정한다.

학습 내용 요약 - 각 세부 사항은 TIL 작성

디시전트리 기반의 앙상블 알고리즘 Random Forest에 대해 배웠다. 캐글에서 통신사 고객 정보 데이터를 로드하여 이탈 여부를 예측했다. pandas의 get_dummies를 이용한 One Hot Encodingtrain_test_split을 이용한 Hold out 검증을 통해 모델의 성능을 향상시켰다.
DAY 53

 

[DAY 53] RandomForest, One Hot Encoding, get_dummies, train_test_split

DecisionTree를 여러 개 사용하는 형태인 앙상블 모델 RandomForest를 사용하여 분류 예측을 했다. 원핫인코딩과 train_test_split을 통해 모델의 예측 성능을 높였다. Random Forest Decision Tree(의사결정 트리)

icedhotchoco.tistory.com


DAY 54에는 DAY 53과 같은 데이터를 활용했으나 전처리, 머신러닝 모델, 검증 방법에 차이점을 두고 결과가 달라지는 것을 확인하였다.
DAY 54

 

[DAY 54] ExtraTreesClassifier, scikit-learn의 OneHotEncoder, cross validation

극도로 무작위화(Extremely Randomized) 된 앙상블 러닝 모델을 사용하여 분류 결과를 얻어냈다. 그 과정에서 sklearn의 OneHotEncoder를 통해 원핫인코딩을 해보고 pandas의 get_dummies 함수와의 차이점을 익혔

icedhotchoco.tistory.com


Kaggle의 회귀문제 Competition의 데이터 준비, 학습, 예측, 제출, 결과 확인까지의 과정을 경험했다. GradientBoostingRegressor 모델을 사용하고 로그 변환, 변환된 로그 복원, GridSearchCV를 통한 최적의 하이퍼 파라미터를 찾는 과정 등을 기반으로 좋은 점수를 얻었다.
DAY 55

 

[DAY 55] 캐글 경진대회 상위 3% 경험하기 - 수요 예측(회귀), 부스팅 모델, GridSearchCV

Kaggle Competition : Bike Sharing Demand를 경험했다. 자전거 수요를 회귀 모델을 사용해 예측하고 제출하여 점수를 확인했다. Gradient Boosting 모델을 사용했으며 GridSearchCV를 통해 최적의 하이퍼 파라미터

icedhotchoco.tistory.com


어떻게 하면 더 좋은 성능을 낼 수 있을까 고민하고 탐색하는 접근이 재미있었고 그것을 이루어냈을 때 성취감이 느껴졌다.

반응형

댓글