본문 바로가기
AI SCHOOL/WIL

[WEEK 14] 멋쟁이사자처럼 AI 스쿨 14주차

2023. 3. 23.

14주차에는 scikit-learn에서 제공하는 부스팅 모델과 scikit-learn이 아닌 라이브러리에서 제공하는 부스팅 모델을 익히고 회귀 문제에 적용해봤다. 또한 랜덤서치를 이용한 하이퍼파라미터 튜닝을 통해 모델의 성능 향상을 도모했다.

이번주의 키워드로 GradientBoosting, XGBoost, LightGBM, CatBoost, 랜덤서치, 익명화된 데이터, 하이퍼파라미터 튜닝을 선정한다.

학습 내용 요약 - 각 세부 사항은 TIL 작성

사이킷런의 앙상블 회귀 모델 GradientBoostingRegressor를 이용해 회귀 문제를 경험했다. RandomizedSearchCV의 결과로 구한 best_estimator_를 활용했으며 kaggle에 제출 후 GridSearchCV로 얻은 점수와 비교했다.
DAY 58

 

[DAY 58] 머신러닝으로 자전거 수요 예측 - GradientBoostingRegressor, RandomizedSearchCV

회귀 문제에 성능이 좋은 부스팅 모델을 사용하여 자전거 수요를 예측했다. RandomizedSearchCV를 통해 최적의 하이퍼파라미터를 탐색하고 GridSearchCV와 비교했다. 데이터 준비 캐글 페이지에서 학습,

icedhotchoco.tistory.com


수 백개 이상의 변수를 가진 익명화된 데이터셋을 다루어봤다. 사이킷런이 아닌 라이브러리(xgboost, lightgbm)의 부스팅 회귀 모델을 활용했다.
DAY 59

 

[DAY 59] 메르세데스 벤츠 테스팅 시간 예측 - XGBoost, LightGBM

Kaggle Competition : Mercedes-Benz Greener Manufacturing을 통해 부스팅 모델을 사용하여 회귀 예측을 했다. Tree 계열 알고리즘 중 사이킷런이 아닌 라이브러리의 알고리즘을 사용했으며 수 백개 이상의 변수,

icedhotchoco.tistory.com


부스팅 알고리즘 중 최근에 발표된 CatBoost를 활용했다. 랜덤서치를 이용해서 하이퍼파라미터 튜닝을 하는 과정에서 CatBoost에서는 랜덤서치가 모델의 메소드로 동작한다는 특징을 알게 되었다.
DAY 60

 

[DAY 60] CatBoost, 하이퍼파라미터 튜닝

부스팅 알고리즘 중 CatBoost에 대해 배우고 이를 캐글 회귀 문제에 활용했다. 좋은 성능을 내기 위해 randomized search를 통해 하이퍼파라미터를 튜닝했다. CatBoost 러시아의 Yandex에서 개발한 오픈소스

icedhotchoco.tistory.com


여러 부스팅 알고리즘을 경험해서 색다르고 좋았다. 최적의 하이퍼파라미터를 찾을 수 있는 랜덤서치는 활용도가 매우 높을 것 같다.

반응형

댓글