본문 바로가기

데이터분석9

[DAY 68] 미드프로젝트2 데이터 준비, EDA 지난주 금요일인 DAY 67 강의 이후 밤, 주말을 활용해서 으쌰으쌰팀4와 함께 미드프로젝트2의 전체적 타임라인 설정, 파생변수 생성, 데이터셋 분할, 데이터 전처리 및 EDA를 완료했다. 우리 팀은 데이콘의 구내식당 식수 인원 예측 AI 경진대회로 주제를 선정했다. 앞으로 다양한 머신러닝 모델을 사용하여 식수 인원을 예측해 볼 계획이다. 데이터 준비 최초 train set와 test set의 형태를 보면 아래와 같다. 파생변수는 크게 3가지 관점에서 만든다. 1. 일자에서 연, 월, 일, 연월을 추출 2. 총 정원수에서 출장, 시간외근무, 재택근무자 수를 제외한 실근무자수 계산 3. 중식메뉴와 석식메뉴를 밥, 국, 메인, 반찬1, 반찬2로 split하며 New 메뉴가 있으면 신메뉴유무 1, 없으면 0 .. 2023. 4. 3.
[DAY 48] RFM - 과거 내역을 통해 고객의 미래 가치를 추출하는 분석 방법 고객의 과거 데이터를 통해 미래 가치를 추출하고 계산하며 고객을 분류할 수 있는 간단하고 유용한 방법인 RFM에 대해 공부했다. 분석 과정을 통해 데이터를 의미 있는 정보로 전환하여 마케팅에 가장 많이 사용되고 있다. RFM RFM은 고객의 가치를 아래 세 가지 기준에 근거해 계산한다. 1. Recency : 거래의 최근성 - 고객이 얼마나 최근에 구입했는가? 2. Frequency : 거래 빈도 - 고객이 얼마나 빈번하게 구입했는가? 3. Monetary : 거래 규모 - 고객이 구입한 총 금액은 어느 정도인가? RFM의 개념을 익힌 후 이를 적용해 데이터를 분석했다. 데이터 준비 영국 온라인 소매점 거래 데이터셋을 이용했다. raw = pd.read_csv('online_retail.csv') raw.. 2023. 3. 6.
[WEEK 11] 멋쟁이사자처럼 AI 스쿨 11주차 AI SCHOOL 8기의 절반 지점을 앞두고 있는 11주차에는 메모리와 스토리지 관리, 이커머스 데이터 분석을 했다. 미드프로젝트1 발표와 회고, 공휴일이 있었기 때문에 학습량은 많지 않았다. 이번주의 키워드로 parquet, csv, file format, downcast, 이커머스 데이터 EDA를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 저장하는 파일 형식에 따라 저장소를 덜 차지하도록 저장할 수 있다는 것을 배웠고, 실제로 같은 데이터를 csv와 parquet 형식으로 각각 저장하여 파일 사이즈 차이를 확인하였다. 또한 downcast를 통해 판다스 데이터프레임의 메모리 사용량을 줄이는 방법을 알게 되었다. DAY 44 [DAY 44] 스토리지, 메모리 사용량 관리 parquet,.. 2023. 3. 2.
전국 신규 아파트 분양가격 동향 분석, seaborn을 이용한 시각화 전혀 다른 형태의 두 데이터를 전처리하고 하나의 데이터프레임으로 병합한다. 병합된 데이터프레임을 다루어 데이터를 요약, 분석하고 다양한 방법으로 시각화한다. 라이브러리 임포트 데이터분석과 시각화에 사용될 라이브러리를 임포트한다. 그래프에서 정상적인 한글 표현을 위해 koreanize-matplotlib을 사용한다. import koreanize_matplotlib import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt 데이터 로드 2013~2015 전국 지역별 평균 분양가격 데이터를 df_first에, 2015~2021 전국 지역별 평균 분양가격 데이터를 df_last 변수에 로드한다. 데이터는.. 2023. 2. 6.
[DAY 24] 서울시 코로나19 발생동향 분석 - index 다루기, 데이터 요약, 기술통계, 파생변수, 시각화 EDA를 시작했다. 서울시 코로나 확진자 데이터를 pandas DataFrame으로 다루어봤다. 실제 데이터를 분석하고 시각화해보는 시간을 가졌다. glob 파일 목록을 간편하게 확인할 수 있는 glob 사용법을 배웠다. 코드가 작성된 파일의 현재 폴더의 data 폴더 아래에 seoul로 시작되는 폴더 아래에 seoul로 시작되는 csv 파일을 찾았다. 이처럼 glob은 파일명을 정확히 작성하지 않아도 찾을 수 있어서 유용하다. 데이터프레임 만들기 확인된 파일 중 seoul-covid19-2021-12-18.csv와 seoul-covid19-2021-12-26.csv를 pandas의 read_csv를 이용하여 각각 df_01과 df_02에 데이터프레임으로 저장하였다. df_01은 18646 rows, d.. 2023. 1. 31.