본문 바로가기

AI SCHOOL/TIL101

[DAY 61] Week 14 Insight Day 미니프로젝트4 시작, 미드프로젝트1 리뷰 리포트 20230323(목) 인사이트 데이 으쌰으쌰팀3과의 두 번째 프로젝트 미니프로젝트4를 시작했다. DACON에서 실제 진행 중인 경진대회에 참가하기로 했다. 오전 으쌰으쌰팀3과 zoom 소회의실에 모여 미니프로젝트4를 했다. 이번 프로젝트는 데이콘 Basic 전화 해지 여부 분류 AI 경진대회에 직접 참가하는 것이다. 그러나 해당 대회는 팀 단위로 참가가 불가하고 개인으로만 참가할 수 있기 때문에 팀원 각자 해보고 모델, 점수 등 간단히 서로 나누는 방식이 될 것 같다. 하루 최대 제출 횟수가 3회다 보니 금방 끝났다. 지금은 상위 50% 정도 지점에 랭크되어 있지만, 앞으로 다른 모델 사용, 피처엔지니어링 등의 과정을 거친 후 다시 시도하여 더 좋은 결과를 받도록 노력해야겠다. 오후 여느 인사이트데이와 .. 2023. 3. 23.
[DAY 60] CatBoost, 하이퍼파라미터 튜닝 부스팅 알고리즘 중 CatBoost에 대해 배우고 이를 캐글 회귀 문제에 활용했다. 좋은 성능을 내기 위해 randomized search를 통해 하이퍼파라미터를 튜닝했다. CatBoost 러시아의 Yandex에서 개발한 오픈소스 라이브러리 Decision Tree 기반의 부스팅 알고리즘 XGBoost와 LightGBM에 비해 최근에 발표되었다 장점 과적합을 극복하기 위해 부스팅 정렬 categorical 변수에 대한 처리 지원 Oblivious Trees 또는 Symmetric Trees 사용으로 처리 속도 향상 단점 희소 행렬을 지원하지 않는다 수치형 변수가 많은 데이터셋일 경우 많은 시간 소요 어제 XGBoost, LightGBM을 이용했던 메르세데스 벤츠 생산 공정 소요 시간 예측 경진대회를 Ca.. 2023. 3. 22.
[DAY 59] 메르세데스 벤츠 테스팅 시간 예측 - XGBoost, LightGBM Kaggle Competition : Mercedes-Benz Greener Manufacturing을 통해 부스팅 모델을 사용하여 회귀 예측을 했다. Tree 계열 알고리즘 중 사이킷런이 아닌 라이브러리의 알고리즘을 사용했으며 수 백개 이상의 변수, 익명화된 데이터셋을 경험했다. 데이터 로드 colab 환경에서 진행했는데, competition page에서 다운로드한 zip파일을 그대로 올리고 unzip 명령어를 통해 압축을 풀어 사용했다. !unzip mercedes-benz-greener-manufacturing.zip !unzip 파일경로 명령어를 실행해서 압축을 해제했다. 압축 해제 결과인 총 3개의 파일 train.csv.zip, test.csv.zip, sample_submission.csv.. 2023. 3. 21.
[DAY 58] 머신러닝으로 자전거 수요 예측 - GradientBoostingRegressor, RandomizedSearchCV 회귀 문제에 성능이 좋은 부스팅 모델을 사용하여 자전거 수요를 예측했다. RandomizedSearchCV를 통해 최적의 하이퍼파라미터를 탐색하고 GridSearchCV와 비교했다. 데이터 준비 캐글 페이지에서 학습, 예측, 제출에 사용할 파일 train.csv, test.csv, sampleSubmission.csv를 다운로드했다. 그 후 pandas를 통해 train과 test 데이터를 로드하여 형태를 확인했다. print(train.shape) train.head() train 데이터의 shape와 처음 5개 행을 확인 print(test.shape) test.head() test도 마찬가지로 확인 casual, registered, count는 자전거 수요를 의미한다. test 데이터를 활용하여 .. 2023. 3. 20.
[DAY 57] Tableau 계산된 필드, 매개변수 만들기, 대시보드 계획하기, 데이터 스토리텔링 태블로의 계산된 필드, 매개 변수를 만드는 방법과 어떤 식으로 사용하는지에 대해 배웠다. 대시보드를 어떻게 계획하고 구성해야 좋은 방향일지에 대한 관점으로 생각해보는 시간은 정말 유익했다. 계산된 필드와 매개변수 각 연도,월별 매출 합계를 나타낸 표다. 당월, 전월 데이터가 오류가 없는 것인지 확인할 때 활용한다. 당월 매출, 전월 매출, 전월 대비 매출 증감 비율을 확인하는 시트 3개를 만들어 아래와 같이 대시보드로 만들었다. 연도와 월을 설정할 수 있는 p. Year, p. Month 매개변수를 만들어 활용했다. 연도와 월을 드롭다운에서 지정하면 당월 매출과 전월 매출, 전월 대비 매출 증감률을 확인할 수 있는 대시보드를 제작했다. 매개변수를 변경하며 변화하는 대시보드를 확인했다. 매개변수 p. 날짜.. 2023. 3. 17.
반응형