본문 바로가기

ROOT135

[DAY 58] 머신러닝으로 자전거 수요 예측 - GradientBoostingRegressor, RandomizedSearchCV 회귀 문제에 성능이 좋은 부스팅 모델을 사용하여 자전거 수요를 예측했다. RandomizedSearchCV를 통해 최적의 하이퍼파라미터를 탐색하고 GridSearchCV와 비교했다. 데이터 준비 캐글 페이지에서 학습, 예측, 제출에 사용할 파일 train.csv, test.csv, sampleSubmission.csv를 다운로드했다. 그 후 pandas를 통해 train과 test 데이터를 로드하여 형태를 확인했다. print(train.shape) train.head() train 데이터의 shape와 처음 5개 행을 확인 print(test.shape) test.head() test도 마찬가지로 확인 casual, registered, count는 자전거 수요를 의미한다. test 데이터를 활용하여 .. 2023. 3. 20.
[DAY 57] Tableau 계산된 필드, 매개변수 만들기, 대시보드 계획하기, 데이터 스토리텔링 태블로의 계산된 필드, 매개 변수를 만드는 방법과 어떤 식으로 사용하는지에 대해 배웠다. 대시보드를 어떻게 계획하고 구성해야 좋은 방향일지에 대한 관점으로 생각해보는 시간은 정말 유익했다. 계산된 필드와 매개변수 각 연도,월별 매출 합계를 나타낸 표다. 당월, 전월 데이터가 오류가 없는 것인지 확인할 때 활용한다. 당월 매출, 전월 매출, 전월 대비 매출 증감 비율을 확인하는 시트 3개를 만들어 아래와 같이 대시보드로 만들었다. 연도와 월을 설정할 수 있는 p. Year, p. Month 매개변수를 만들어 활용했다. 연도와 월을 드롭다운에서 지정하면 당월 매출과 전월 매출, 전월 대비 매출 증감률을 확인할 수 있는 대시보드를 제작했다. 매개변수를 변경하며 변화하는 대시보드를 확인했다. 매개변수 p. 날짜.. 2023. 3. 17.
[WEEK 13] 멋쟁이사자처럼 AI 스쿨 13주차 13주차에는 머신러닝 여러 모델을 다루어 분류, 회귀 예측을 했다. 더 좋은 결과를 얻기 위한 과정을 경험했다. 이번주의 키워드로 scikit-learn, Classification(분류), Regression(회귀), RandomForest, ExtraTrees, GradientBoosting, train_test_split, encoding, cross validation(교차 검증), GridSearchCV를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 디시전트리 기반의 앙상블 알고리즘 Random Forest에 대해 배웠다. 캐글에서 통신사 고객 정보 데이터를 로드하여 이탈 여부를 예측했다. pandas의 get_dummies를 이용한 One Hot Encoding과 train_te.. 2023. 3. 16.
[DAY 56] Week 13 Insight Day 20230316(목) 인사이트 데이 이번주는 프로젝트를 하지 않아서 여유로운 분위기가 느껴진다. 이제 이런 날이 있을까 싶다. 오전 으쌰으쌰팀3과 소회의실에서 모각공을 했다. 이번주에는 프로젝트가 없는 주여서 회의할 것도 없고 좋았다. 프로젝트 대신 개인 과제가 있어서 다들 과제를 하면서 시간을 보냈다. 나는 seaborn의 내장 데이터셋인 taxis를 이용해서 EDA 하고 downcast를 연습하는 과제를 오전에 완료했다. 다른 과제는 천천히.. 오후 오늘도 역시 이주의 멋쟁이와 WIL 우수 사례를 발표했다. 항상 보면 열심히 하시는 분이 선정되시는 것 같다고 느꼈다. 저번주 머신러닝(분류)에 대한 설문 결과를 봤더니 "어려웠다"로 응답하신 비율이 높았고 학습 소화율에 "개선필요" 응답 비율은 역대 최.. 2023. 3. 16.
[DAY 55] 캐글 경진대회 상위 3% 경험하기 - 수요 예측(회귀), 부스팅 모델, GridSearchCV Kaggle Competition : Bike Sharing Demand를 경험했다. 자전거 수요를 회귀 모델을 사용해 예측하고 제출하여 점수를 확인했다. Gradient Boosting 모델을 사용했으며 GridSearchCV를 통해 최적의 하이퍼 파라미터를 탐색했다. 데이터 준비 competition page에서 train.csv, test.csv, sampleSubmission.csv를 다운로드했다. 각각 학습, 예측, 제출에 사용할 파일이다. 그 후 train.csv와 test.csv를 로드하여 각각 변수에 저장했다. print(train.shape) train.head() train 데이터의 shape와 처음 5개 행 확인 print(test.shape) test.head() test 데이터의 .. 2023. 3. 15.
반응형