본문 바로가기

ROOT135

[DAY 62] Tableau 분산형 차트, 히스토그램, 박스플롯 태블로를 이용해서 분산형 차트, 히스토그램, 박스플롯을 그렸다. 어떤 상황에 사용하는지, 어떻게 만드는지에 대해 익히고 매개변수를 활용한 대시보드를 만들었다. 분산형 차트 측정값 간의 관계를 확인하기 위한 시각화의 한 방식 수익과 할인율 사이의 관계를 확인하는 분산형 차트를 만들었다. 수익을 매출로 나눈 수익률 필드를 생성하고 색상 마크 지정했다. 또한 수익과 할인율의 상관관계를 나타내는 추세선을 선형으로 추가하여 음의 상관관계를 확인할 수 있다. 히스토그램 특정 구간, 범위에 값이 얼마나 분포되어 있는지 시각화 같은 배송 방법별 배송 기간의 빈도수를 표현하는 히스토그램을 그린 후, 테이블 계산 편집을 통해 구성 비율로 변경했다. 특정 배송 방법별로 n일 소요된 배송 건수가 몇 %인지 확인 가능하다. 박.. 2023. 3. 25.
[WEEK 14] 멋쟁이사자처럼 AI 스쿨 14주차 14주차에는 scikit-learn에서 제공하는 부스팅 모델과 scikit-learn이 아닌 라이브러리에서 제공하는 부스팅 모델을 익히고 회귀 문제에 적용해봤다. 또한 랜덤서치를 이용한 하이퍼파라미터 튜닝을 통해 모델의 성능 향상을 도모했다. 이번주의 키워드로 GradientBoosting, XGBoost, LightGBM, CatBoost, 랜덤서치, 익명화된 데이터, 하이퍼파라미터 튜닝을 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 사이킷런의 앙상블 회귀 모델 GradientBoostingRegressor를 이용해 회귀 문제를 경험했다. RandomizedSearchCV의 결과로 구한 best_estimator_를 활용했으며 kaggle에 제출 후 GridSearchCV로 얻은 점수와 .. 2023. 3. 23.
[DAY 61] Week 14 Insight Day 미니프로젝트4 시작, 미드프로젝트1 리뷰 리포트 20230323(목) 인사이트 데이 으쌰으쌰팀3과의 두 번째 프로젝트 미니프로젝트4를 시작했다. DACON에서 실제 진행 중인 경진대회에 참가하기로 했다. 오전 으쌰으쌰팀3과 zoom 소회의실에 모여 미니프로젝트4를 했다. 이번 프로젝트는 데이콘 Basic 전화 해지 여부 분류 AI 경진대회에 직접 참가하는 것이다. 그러나 해당 대회는 팀 단위로 참가가 불가하고 개인으로만 참가할 수 있기 때문에 팀원 각자 해보고 모델, 점수 등 간단히 서로 나누는 방식이 될 것 같다. 하루 최대 제출 횟수가 3회다 보니 금방 끝났다. 지금은 상위 50% 정도 지점에 랭크되어 있지만, 앞으로 다른 모델 사용, 피처엔지니어링 등의 과정을 거친 후 다시 시도하여 더 좋은 결과를 받도록 노력해야겠다. 오후 여느 인사이트데이와 .. 2023. 3. 23.
[DAY 60] CatBoost, 하이퍼파라미터 튜닝 부스팅 알고리즘 중 CatBoost에 대해 배우고 이를 캐글 회귀 문제에 활용했다. 좋은 성능을 내기 위해 randomized search를 통해 하이퍼파라미터를 튜닝했다. CatBoost 러시아의 Yandex에서 개발한 오픈소스 라이브러리 Decision Tree 기반의 부스팅 알고리즘 XGBoost와 LightGBM에 비해 최근에 발표되었다 장점 과적합을 극복하기 위해 부스팅 정렬 categorical 변수에 대한 처리 지원 Oblivious Trees 또는 Symmetric Trees 사용으로 처리 속도 향상 단점 희소 행렬을 지원하지 않는다 수치형 변수가 많은 데이터셋일 경우 많은 시간 소요 어제 XGBoost, LightGBM을 이용했던 메르세데스 벤츠 생산 공정 소요 시간 예측 경진대회를 Ca.. 2023. 3. 22.
[DAY 59] 메르세데스 벤츠 테스팅 시간 예측 - XGBoost, LightGBM Kaggle Competition : Mercedes-Benz Greener Manufacturing을 통해 부스팅 모델을 사용하여 회귀 예측을 했다. Tree 계열 알고리즘 중 사이킷런이 아닌 라이브러리의 알고리즘을 사용했으며 수 백개 이상의 변수, 익명화된 데이터셋을 경험했다. 데이터 로드 colab 환경에서 진행했는데, competition page에서 다운로드한 zip파일을 그대로 올리고 unzip 명령어를 통해 압축을 풀어 사용했다. !unzip mercedes-benz-greener-manufacturing.zip !unzip 파일경로 명령어를 실행해서 압축을 해제했다. 압축 해제 결과인 총 3개의 파일 train.csv.zip, test.csv.zip, sample_submission.csv.. 2023. 3. 21.
반응형