본문 바로가기

머신러닝13

[DAY 70] 미드프로젝트2 마무리 하루동안 미드프로젝트2 마무리를 지었다. PPT와 팀 노션 페이지를 정리했고 발표의 흐름과 내용을 구성했다. 열정적이고 꼼꼼한 팀원들의 덕을 많이 봤다. 프로젝트 요약 데이터 전처리 및 EDA는 팀원 모두가 전부 경험했다. 예측해야 하는 값인 중식계와 석식계가 높은 양의 상관관계를 보이는 것을 확인했고, 산점도를 그려보니 회귀선과 비슷한 분포를 나타내는 것을 보고 머신러닝으로 중식 수요를 예측 후 이 예측값을 다시 독립변수로 사용하여 석식 수요를 예측해 보는 방법을 생각했으며 데이터셋이 2016년부터 2021년까지의 데이터이므로 일부 기간 코로나 기간이어서 재택근무자 수가 생긴 것을 확인하는 등 EDA를 통해 머신러닝을 어떻게 진행해야할지 아이디어를 많이 얻었다. 머신러닝 모델은 AutoML 라이브러리 .. 2023. 4. 5.
[DAY 69] 미드프로젝트2 - 프로젝트 멘토 피드백, 머신러닝 팀원별로 머신러닝 모델을 사용해 보며 MAE 점수를 낮추기 위해 노력했다. 오후에는 프로젝트 마무리에 대해 고민했고, 프로젝트멘토 피드백이 있었다. 모델 사용 및 결과 제출 각자 맡은 모델을 사용하며 피처 엔지니어링, 하이퍼파라미터 튜닝 등을 적용했다. 나는 랜덤포레스트 모델의 n_estimators와 max_depth를 데이콘 최종 결과 상위 랭커분이 사용하신 것과 같게 설정해 봤으나 변수가 달라서 그런지 결과가 좋지 않았다. 하이퍼파라미터를 따로 설정하지 않은 모델을 사용한 경우가 제일 점수가 좋았다. 오전 중으로 계속 팀원들도 많은 시도를 하셨지만 유의미하게 개선된 경우는 없는 것 같다. 그리고 데이콘 제출 횟수의 제한으로 인해 많이 제출하고 점수를 확인하지 못한 부분이 아쉽다. gridsearch.. 2023. 4. 4.
[DAY 68] 미드프로젝트2 데이터 준비, EDA 지난주 금요일인 DAY 67 강의 이후 밤, 주말을 활용해서 으쌰으쌰팀4와 함께 미드프로젝트2의 전체적 타임라인 설정, 파생변수 생성, 데이터셋 분할, 데이터 전처리 및 EDA를 완료했다. 우리 팀은 데이콘의 구내식당 식수 인원 예측 AI 경진대회로 주제를 선정했다. 앞으로 다양한 머신러닝 모델을 사용하여 식수 인원을 예측해 볼 계획이다. 데이터 준비 최초 train set와 test set의 형태를 보면 아래와 같다. 파생변수는 크게 3가지 관점에서 만든다. 1. 일자에서 연, 월, 일, 연월을 추출 2. 총 정원수에서 출장, 시간외근무, 재택근무자 수를 제외한 실근무자수 계산 3. 중식메뉴와 석식메뉴를 밥, 국, 메인, 반찬1, 반찬2로 split하며 New 메뉴가 있으면 신메뉴유무 1, 없으면 0 .. 2023. 4. 3.
[WEEK 14] 멋쟁이사자처럼 AI 스쿨 14주차 14주차에는 scikit-learn에서 제공하는 부스팅 모델과 scikit-learn이 아닌 라이브러리에서 제공하는 부스팅 모델을 익히고 회귀 문제에 적용해봤다. 또한 랜덤서치를 이용한 하이퍼파라미터 튜닝을 통해 모델의 성능 향상을 도모했다. 이번주의 키워드로 GradientBoosting, XGBoost, LightGBM, CatBoost, 랜덤서치, 익명화된 데이터, 하이퍼파라미터 튜닝을 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 사이킷런의 앙상블 회귀 모델 GradientBoostingRegressor를 이용해 회귀 문제를 경험했다. RandomizedSearchCV의 결과로 구한 best_estimator_를 활용했으며 kaggle에 제출 후 GridSearchCV로 얻은 점수와 .. 2023. 3. 23.
[DAY 60] CatBoost, 하이퍼파라미터 튜닝 부스팅 알고리즘 중 CatBoost에 대해 배우고 이를 캐글 회귀 문제에 활용했다. 좋은 성능을 내기 위해 randomized search를 통해 하이퍼파라미터를 튜닝했다. CatBoost 러시아의 Yandex에서 개발한 오픈소스 라이브러리 Decision Tree 기반의 부스팅 알고리즘 XGBoost와 LightGBM에 비해 최근에 발표되었다 장점 과적합을 극복하기 위해 부스팅 정렬 categorical 변수에 대한 처리 지원 Oblivious Trees 또는 Symmetric Trees 사용으로 처리 속도 향상 단점 희소 행렬을 지원하지 않는다 수치형 변수가 많은 데이터셋일 경우 많은 시간 소요 어제 XGBoost, LightGBM을 이용했던 메르세데스 벤츠 생산 공정 소요 시간 예측 경진대회를 Ca.. 2023. 3. 22.