본문 바로가기

ROOT135

[DAY 50] Decision Tree를 이용한 분류, 학습과 예측, Accuracy 분류, 회귀 모두 사용 가능한 Decision Tree의 기본 원리를 이해하고 머신러닝에 활용했다. scikit-learn의 DecisionTreeClassifier 모델을 사용하여 고객 행동 예측을 경험해보고 Accuracy를 평가해보는 과정으로 머신러닝 모델의 동작(학습 -> 예측 -> 평가)을 이해하였다. 데이터 준비 데이터는 Kaggle에 있는 Telco Customer Churn 데이터를 로드하여 df에 저장하였다. 인구통계, 구독과 관련된 정보 등 고객 정보가 들어 있으며 이를 이용하여 이탈 여부를 예측하였다. customerID를 index로 지정, TotalCharges 컬럼을 numeric으로 변환, 결측치 제거 등의 전처리 과정을 거쳤다. 11개 행에 대해 결측치가 있었는데, 전체 70.. 2023. 3. 8.
[DAY 49] 머신러닝, K-means clustering algorithm 머신러닝과 scikit-learn에 대해 학습하는 것으로 강의가 시작되었다. 어제 retail data를 기반으로 만든 RFM 데이터와 군집화 알고리즘 K-means를 이용하여 실습하였다. 머신러닝, scikit-learn 파이썬의 머신러닝 라이브러리 scikit-learn의 대표적 기능 1. Classification(분류) 2. Regression(회귀) 3. Clustering(군집화) 4. Dimensionality Reduction(차원 축소) 5. Model selection and evaluation(모델 선택 및 평가) 6. Preprocessing(전처리) 머신러닝, 딥러닝에서 추상화된 도구(scikit-learn, TensorFlow, pyTorch, FastAI 등)를 사용했을 때 장.. 2023. 3. 7.
[DAY 48] RFM - 과거 내역을 통해 고객의 미래 가치를 추출하는 분석 방법 고객의 과거 데이터를 통해 미래 가치를 추출하고 계산하며 고객을 분류할 수 있는 간단하고 유용한 방법인 RFM에 대해 공부했다. 분석 과정을 통해 데이터를 의미 있는 정보로 전환하여 마케팅에 가장 많이 사용되고 있다. RFM RFM은 고객의 가치를 아래 세 가지 기준에 근거해 계산한다. 1. Recency : 거래의 최근성 - 고객이 얼마나 최근에 구입했는가? 2. Frequency : 거래 빈도 - 고객이 얼마나 빈번하게 구입했는가? 3. Monetary : 거래 규모 - 고객이 구입한 총 금액은 어느 정도인가? RFM의 개념을 익힌 후 이를 적용해 데이터를 분석했다. 데이터 준비 영국 온라인 소매점 거래 데이터셋을 이용했다. raw = pd.read_csv('online_retail.csv') raw.. 2023. 3. 6.
[DAY 47] Tableau 시작 - 원본 페이지, 주요 키워드, 차트 그리기 Special Lecture Tableau 첫 강의였다. 오전 시간에는 비디오 강의를 통해 태블로의 기본적인 것을 학습한 후 오후 실시간 강의에서 다양한 데이터를 시각화했다. Tableau(태블로) 데이터 리터러시가 강조되고 있는 요즘, 태블로는 국내와 세계에서 점차 활용 기업이 늘어나고 있는 시각화 도구다. Data Literacy : 데이터를 보고 활용할 수 있는 능력 - 탐색(Explore)을 통해 본인이 이해(Understand)하고 이를 다른 사람과의 대화(Communication)와 협업(Collaboration)을 통해 찾은 통찰(Insight)을 공유(Share)하는 일련의 능력 태블로 시작 파일에 연결을 통해 excel 파일의 데이터를 사용할 수 있다 연결한 후 이름을 확인하면 엑셀 시트.. 2023. 3. 4.
[WEEK 11] 멋쟁이사자처럼 AI 스쿨 11주차 AI SCHOOL 8기의 절반 지점을 앞두고 있는 11주차에는 메모리와 스토리지 관리, 이커머스 데이터 분석을 했다. 미드프로젝트1 발표와 회고, 공휴일이 있었기 때문에 학습량은 많지 않았다. 이번주의 키워드로 parquet, csv, file format, downcast, 이커머스 데이터 EDA를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 저장하는 파일 형식에 따라 저장소를 덜 차지하도록 저장할 수 있다는 것을 배웠고, 실제로 같은 데이터를 csv와 parquet 형식으로 각각 저장하여 파일 사이즈 차이를 확인하였다. 또한 downcast를 통해 판다스 데이터프레임의 메모리 사용량을 줄이는 방법을 알게 되었다. DAY 44 [DAY 44] 스토리지, 메모리 사용량 관리 parquet,.. 2023. 3. 2.
반응형