본문 바로가기

AI SCHOOL/TIL101

[DAY 56] Week 13 Insight Day 20230316(목) 인사이트 데이 이번주는 프로젝트를 하지 않아서 여유로운 분위기가 느껴진다. 이제 이런 날이 있을까 싶다. 오전 으쌰으쌰팀3과 소회의실에서 모각공을 했다. 이번주에는 프로젝트가 없는 주여서 회의할 것도 없고 좋았다. 프로젝트 대신 개인 과제가 있어서 다들 과제를 하면서 시간을 보냈다. 나는 seaborn의 내장 데이터셋인 taxis를 이용해서 EDA 하고 downcast를 연습하는 과제를 오전에 완료했다. 다른 과제는 천천히.. 오후 오늘도 역시 이주의 멋쟁이와 WIL 우수 사례를 발표했다. 항상 보면 열심히 하시는 분이 선정되시는 것 같다고 느꼈다. 저번주 머신러닝(분류)에 대한 설문 결과를 봤더니 "어려웠다"로 응답하신 비율이 높았고 학습 소화율에 "개선필요" 응답 비율은 역대 최.. 2023. 3. 16.
[DAY 55] 캐글 경진대회 상위 3% 경험하기 - 수요 예측(회귀), 부스팅 모델, GridSearchCV Kaggle Competition : Bike Sharing Demand를 경험했다. 자전거 수요를 회귀 모델을 사용해 예측하고 제출하여 점수를 확인했다. Gradient Boosting 모델을 사용했으며 GridSearchCV를 통해 최적의 하이퍼 파라미터를 탐색했다. 데이터 준비 competition page에서 train.csv, test.csv, sampleSubmission.csv를 다운로드했다. 각각 학습, 예측, 제출에 사용할 파일이다. 그 후 train.csv와 test.csv를 로드하여 각각 변수에 저장했다. print(train.shape) train.head() train 데이터의 shape와 처음 5개 행 확인 print(test.shape) test.head() test 데이터의 .. 2023. 3. 15.
[DAY 54] ExtraTreesClassifier, scikit-learn의 OneHotEncoder, cross validation 극도로 무작위화(Extremely Randomized) 된 앙상블 러닝 모델을 사용하여 분류 결과를 얻어냈다. 그 과정에서 sklearn의 OneHotEncoder를 통해 원핫인코딩을 해보고 pandas의 get_dummies 함수와의 차이점을 익혔으며 교차검증(cross validation)으로 모델을 평가했다. ExtraTreesClassifier 분류를 위한 앙상블 학습 알고리즘 중 하나로, 무작위 디시전트리를 사용하는 방법 랜덤포레스트와 유사하지만 극도로 무작위화된 특징을 가진다. random threshold를 사용하여 더욱 랜덤한 트리를 생성하기 때문에 모델의 분산을 줄이고 오버피팅을 방지할 수 있다. 데이터 준비 Kaggle에 있는 Telco Customer Churn 데이터를 활용했다. 인.. 2023. 3. 14.
[DAY 53] RandomForest, One Hot Encoding, get_dummies, train_test_split DecisionTree를 여러 개 사용하는 형태인 앙상블 모델 RandomForest를 사용하여 분류 예측을 했다. 원핫인코딩과 train_test_split을 통해 모델의 예측 성능을 높였다. Random Forest Decision Tree(의사결정 트리) 기반의 ensemble(앙상블) 알고리즘 중 하나. Classification(분류)와 Regression(회귀) 문제 모두에 적용 가능한 인기 있는 머신러닝 알고리즘이다. 여러 개의 Decision Tree를 생성하고 각 트리가 독립적으로 예측한 결과를 종합하여 하나의 최종 예측 결과를 도출한다. 이를 통해 overfitting을 방지하고 모델의 예측 성능을 높일 수 있다. 일반적으로 트리를 많이 사용할수록 더 좋은 성능을 내지만 속도가 느려진다.. 2023. 3. 13.
[DAY 52] Tableau 맵 차트, 영역 차트, 계층, 총계, 퀵 테이블 계산, 인터랙티브 대시보드 만들기 시도별, 시군구별 수익을 시각화하며 태블로 맵 차트의 사용법을 익혔다. 계층, 총계, 누계 등으로 디테일한 계산을 해본 후 직관적이고 동적인 대시보드도 제작했다. 맵 차트와 대시보드 시도, 시군구를 기준으로 맵 차트에 수익을 색으로 표현하였다. 시도명, 시군구명만 있어도 맵으로 쉽게 표현할 수 있는 태블로의 장점을 느꼈다. 17개의 지역을 6개의 그룹으로 묶어 전국을 표현했다. 백그라운드 레이어의 투명도를 100%로 설정하면 사진과 같이 다른 나라가 보이지 않는다. 대시보드 지도에서 원하는 곳을 클릭하여 지역 범위를 좁혀가며 수익을 확인할 수 있는 동작을 추가한 대시보드를 제작했다. 위 사진은 수도권 -> 서울특별시를 클릭하여 서울 구별 수익을 확인하고 있는 것을 보여준다. 이 상태에서 마포구를 클릭하면.. 2023. 3. 12.
반응형