본문 바로가기

ROOT135

[DAY 54] ExtraTreesClassifier, scikit-learn의 OneHotEncoder, cross validation 극도로 무작위화(Extremely Randomized) 된 앙상블 러닝 모델을 사용하여 분류 결과를 얻어냈다. 그 과정에서 sklearn의 OneHotEncoder를 통해 원핫인코딩을 해보고 pandas의 get_dummies 함수와의 차이점을 익혔으며 교차검증(cross validation)으로 모델을 평가했다. ExtraTreesClassifier 분류를 위한 앙상블 학습 알고리즘 중 하나로, 무작위 디시전트리를 사용하는 방법 랜덤포레스트와 유사하지만 극도로 무작위화된 특징을 가진다. random threshold를 사용하여 더욱 랜덤한 트리를 생성하기 때문에 모델의 분산을 줄이고 오버피팅을 방지할 수 있다. 데이터 준비 Kaggle에 있는 Telco Customer Churn 데이터를 활용했다. 인.. 2023. 3. 14.
[DAY 53] RandomForest, One Hot Encoding, get_dummies, train_test_split DecisionTree를 여러 개 사용하는 형태인 앙상블 모델 RandomForest를 사용하여 분류 예측을 했다. 원핫인코딩과 train_test_split을 통해 모델의 예측 성능을 높였다. Random Forest Decision Tree(의사결정 트리) 기반의 ensemble(앙상블) 알고리즘 중 하나. Classification(분류)와 Regression(회귀) 문제 모두에 적용 가능한 인기 있는 머신러닝 알고리즘이다. 여러 개의 Decision Tree를 생성하고 각 트리가 독립적으로 예측한 결과를 종합하여 하나의 최종 예측 결과를 도출한다. 이를 통해 overfitting을 방지하고 모델의 예측 성능을 높일 수 있다. 일반적으로 트리를 많이 사용할수록 더 좋은 성능을 내지만 속도가 느려진다.. 2023. 3. 13.
[DAY 52] Tableau 맵 차트, 영역 차트, 계층, 총계, 퀵 테이블 계산, 인터랙티브 대시보드 만들기 시도별, 시군구별 수익을 시각화하며 태블로 맵 차트의 사용법을 익혔다. 계층, 총계, 누계 등으로 디테일한 계산을 해본 후 직관적이고 동적인 대시보드도 제작했다. 맵 차트와 대시보드 시도, 시군구를 기준으로 맵 차트에 수익을 색으로 표현하였다. 시도명, 시군구명만 있어도 맵으로 쉽게 표현할 수 있는 태블로의 장점을 느꼈다. 17개의 지역을 6개의 그룹으로 묶어 전국을 표현했다. 백그라운드 레이어의 투명도를 100%로 설정하면 사진과 같이 다른 나라가 보이지 않는다. 대시보드 지도에서 원하는 곳을 클릭하여 지역 범위를 좁혀가며 수익을 확인할 수 있는 동작을 추가한 대시보드를 제작했다. 위 사진은 수도권 -> 서울특별시를 클릭하여 서울 구별 수익을 확인하고 있는 것을 보여준다. 이 상태에서 마포구를 클릭하면.. 2023. 3. 12.
[WEEK 12] 멋쟁이사자처럼 AI 스쿨 12주차 오늘은 감회가 새롭다. 이번주 들어 AI SCHOOL 8기 기간의 50% 지점을 지났고, 오늘로써 전체 101일의 일정 중 50%가 넘어간다. 시간이 빠르게 느껴진다. 12주차에는 이커머스 데이터 분석을 했고, 연결 지어서 머신러닝에 입문했다. 이번주의 키워드로 RFM, 머신러닝, K-means, clustering, classification, Decision Tree를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 고객의 거래 데이터(거래일, 거래 금액 등)을 이용하여 고객 가치를 분석하는 RFM에 대한 개념을 익혔고, 영국 온라인 소매점 거래 데이터셋에 적용하여 Recency, Frequency, Monetary를 계산하고 활용했다. DAY 48 [DAY 48] RFM - 과거 내역을 .. 2023. 3. 9.
[DAY 51] Week 12 Insight Day 미니프로젝트3 시작 20230309(목) 인사이트 데이 으쌰으쌰팀3과 진행할 미니프로젝트3을 시작했다. 지난주 작성한 WIL 우수 사례에 선정되었다. 오전 으쌰으쌰팀3과 소회의실에 모여 미니프로젝트3을 진행했다. 이번 프로젝트의 주제인 DAU, MAU, ARPU, ARPPU, 리텐션(시간 코호트), RFM, 군집화 등을 위해 전체 데이터에서 필요한 컬럼을 선정하고 전체적인 방향을 잡았다. DAU, MAU, ARPU, ARPPU 분석은 팀원 모두 각자 해보고, 나머지 부분은 그 이후에 결정하기로 했다. 수천만행 이상의 무거운 데이터를 다루는 것은 처음이었다. 그래도 사용할 데이터와 프로젝트 주제가 정해져 있어서 데이터는 무거웠지만 마음은 가벼웠다. 오후 점심식사 후 지난주 WIL 작성 우수 사례를 발표했는데 내가 선정됐다. .. 2023. 3. 9.
반응형