본문 바로가기

분류5

[WEEK 13] 멋쟁이사자처럼 AI 스쿨 13주차 13주차에는 머신러닝 여러 모델을 다루어 분류, 회귀 예측을 했다. 더 좋은 결과를 얻기 위한 과정을 경험했다. 이번주의 키워드로 scikit-learn, Classification(분류), Regression(회귀), RandomForest, ExtraTrees, GradientBoosting, train_test_split, encoding, cross validation(교차 검증), GridSearchCV를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 디시전트리 기반의 앙상블 알고리즘 Random Forest에 대해 배웠다. 캐글에서 통신사 고객 정보 데이터를 로드하여 이탈 여부를 예측했다. pandas의 get_dummies를 이용한 One Hot Encoding과 train_te.. 2023. 3. 16.
[DAY 54] ExtraTreesClassifier, scikit-learn의 OneHotEncoder, cross validation 극도로 무작위화(Extremely Randomized) 된 앙상블 러닝 모델을 사용하여 분류 결과를 얻어냈다. 그 과정에서 sklearn의 OneHotEncoder를 통해 원핫인코딩을 해보고 pandas의 get_dummies 함수와의 차이점을 익혔으며 교차검증(cross validation)으로 모델을 평가했다. ExtraTreesClassifier 분류를 위한 앙상블 학습 알고리즘 중 하나로, 무작위 디시전트리를 사용하는 방법 랜덤포레스트와 유사하지만 극도로 무작위화된 특징을 가진다. random threshold를 사용하여 더욱 랜덤한 트리를 생성하기 때문에 모델의 분산을 줄이고 오버피팅을 방지할 수 있다. 데이터 준비 Kaggle에 있는 Telco Customer Churn 데이터를 활용했다. 인.. 2023. 3. 14.
[DAY 53] RandomForest, One Hot Encoding, get_dummies, train_test_split DecisionTree를 여러 개 사용하는 형태인 앙상블 모델 RandomForest를 사용하여 분류 예측을 했다. 원핫인코딩과 train_test_split을 통해 모델의 예측 성능을 높였다. Random Forest Decision Tree(의사결정 트리) 기반의 ensemble(앙상블) 알고리즘 중 하나. Classification(분류)와 Regression(회귀) 문제 모두에 적용 가능한 인기 있는 머신러닝 알고리즘이다. 여러 개의 Decision Tree를 생성하고 각 트리가 독립적으로 예측한 결과를 종합하여 하나의 최종 예측 결과를 도출한다. 이를 통해 overfitting을 방지하고 모델의 예측 성능을 높일 수 있다. 일반적으로 트리를 많이 사용할수록 더 좋은 성능을 내지만 속도가 느려진다.. 2023. 3. 13.
[WEEK 12] 멋쟁이사자처럼 AI 스쿨 12주차 오늘은 감회가 새롭다. 이번주 들어 AI SCHOOL 8기 기간의 50% 지점을 지났고, 오늘로써 전체 101일의 일정 중 50%가 넘어간다. 시간이 빠르게 느껴진다. 12주차에는 이커머스 데이터 분석을 했고, 연결 지어서 머신러닝에 입문했다. 이번주의 키워드로 RFM, 머신러닝, K-means, clustering, classification, Decision Tree를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 고객의 거래 데이터(거래일, 거래 금액 등)을 이용하여 고객 가치를 분석하는 RFM에 대한 개념을 익혔고, 영국 온라인 소매점 거래 데이터셋에 적용하여 Recency, Frequency, Monetary를 계산하고 활용했다. DAY 48 [DAY 48] RFM - 과거 내역을 .. 2023. 3. 9.
[DAY 50] Decision Tree를 이용한 분류, 학습과 예측, Accuracy 분류, 회귀 모두 사용 가능한 Decision Tree의 기본 원리를 이해하고 머신러닝에 활용했다. scikit-learn의 DecisionTreeClassifier 모델을 사용하여 고객 행동 예측을 경험해보고 Accuracy를 평가해보는 과정으로 머신러닝 모델의 동작(학습 -> 예측 -> 평가)을 이해하였다. 데이터 준비 데이터는 Kaggle에 있는 Telco Customer Churn 데이터를 로드하여 df에 저장하였다. 인구통계, 구독과 관련된 정보 등 고객 정보가 들어 있으며 이를 이용하여 이탈 여부를 예측하였다. customerID를 index로 지정, TotalCharges 컬럼을 numeric으로 변환, 결측치 제거 등의 전처리 과정을 거쳤다. 11개 행에 대해 결측치가 있었는데, 전체 70.. 2023. 3. 8.