본문 바로가기

회귀4

[DAY 59] 메르세데스 벤츠 테스팅 시간 예측 - XGBoost, LightGBM Kaggle Competition : Mercedes-Benz Greener Manufacturing을 통해 부스팅 모델을 사용하여 회귀 예측을 했다. Tree 계열 알고리즘 중 사이킷런이 아닌 라이브러리의 알고리즘을 사용했으며 수 백개 이상의 변수, 익명화된 데이터셋을 경험했다. 데이터 로드 colab 환경에서 진행했는데, competition page에서 다운로드한 zip파일을 그대로 올리고 unzip 명령어를 통해 압축을 풀어 사용했다. !unzip mercedes-benz-greener-manufacturing.zip !unzip 파일경로 명령어를 실행해서 압축을 해제했다. 압축 해제 결과인 총 3개의 파일 train.csv.zip, test.csv.zip, sample_submission.csv.. 2023. 3. 21.
[DAY 58] 머신러닝으로 자전거 수요 예측 - GradientBoostingRegressor, RandomizedSearchCV 회귀 문제에 성능이 좋은 부스팅 모델을 사용하여 자전거 수요를 예측했다. RandomizedSearchCV를 통해 최적의 하이퍼파라미터를 탐색하고 GridSearchCV와 비교했다. 데이터 준비 캐글 페이지에서 학습, 예측, 제출에 사용할 파일 train.csv, test.csv, sampleSubmission.csv를 다운로드했다. 그 후 pandas를 통해 train과 test 데이터를 로드하여 형태를 확인했다. print(train.shape) train.head() train 데이터의 shape와 처음 5개 행을 확인 print(test.shape) test.head() test도 마찬가지로 확인 casual, registered, count는 자전거 수요를 의미한다. test 데이터를 활용하여 .. 2023. 3. 20.
[WEEK 13] 멋쟁이사자처럼 AI 스쿨 13주차 13주차에는 머신러닝 여러 모델을 다루어 분류, 회귀 예측을 했다. 더 좋은 결과를 얻기 위한 과정을 경험했다. 이번주의 키워드로 scikit-learn, Classification(분류), Regression(회귀), RandomForest, ExtraTrees, GradientBoosting, train_test_split, encoding, cross validation(교차 검증), GridSearchCV를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 디시전트리 기반의 앙상블 알고리즘 Random Forest에 대해 배웠다. 캐글에서 통신사 고객 정보 데이터를 로드하여 이탈 여부를 예측했다. pandas의 get_dummies를 이용한 One Hot Encoding과 train_te.. 2023. 3. 16.
[DAY 55] 캐글 경진대회 상위 3% 경험하기 - 수요 예측(회귀), 부스팅 모델, GridSearchCV Kaggle Competition : Bike Sharing Demand를 경험했다. 자전거 수요를 회귀 모델을 사용해 예측하고 제출하여 점수를 확인했다. Gradient Boosting 모델을 사용했으며 GridSearchCV를 통해 최적의 하이퍼 파라미터를 탐색했다. 데이터 준비 competition page에서 train.csv, test.csv, sampleSubmission.csv를 다운로드했다. 각각 학습, 예측, 제출에 사용할 파일이다. 그 후 train.csv와 test.csv를 로드하여 각각 변수에 저장했다. print(train.shape) train.head() train 데이터의 shape와 처음 5개 행 확인 print(test.shape) test.head() test 데이터의 .. 2023. 3. 15.