본문 바로가기

eda12

[DAY 41] 미드프로젝트1 - 프로젝트멘토 피드백, 커피지수 개편, 중간회고 진전이 많이 없었고 오히려 앞이 막힌 듯한 느낌을 받은 날이다. 프로젝트멘토 네 분이 오전, 오후에 각각 두 분씩 우리 팀과 진행 상황을 점검하고 피드백을 주셨다. 오전 멘토 피드백 지역별로 현재의 커피지수는 커피지수가 높을수록 해당 지역의 유동인구가 높다/낮다로 귀결이 되기 때문에 다른 정보를 이끌어내기 힘들다는 문제가 있다. 창업과 연관을 지으려면 폐업 리스크를 줄이기에 신뢰성을 줄 수 있는 다른 요소까지 고려를 해야한다. - 예를 들어 임대료, 매출 분석 등을 추가로 하고 유동 인구가 적어도 매출이 높은 지역을 도출하는 등 방안 1과 방안 2로 나누어 말씀을 주셨다. 방안 1 : 커피지수와 유동인구를 기반으로 지역분석 - 왜 높은 수치가 나오는가? - 예시 : 회사 수, 대학 수 등 상관관계를 분석.. 2023. 2. 22.
[DAY 40] 미드프로젝트1 - 카페 브랜드별 전국 매장 정보 병합, 커피지수 계산 팀원 개개인이 전처리한 각 카페 브랜드의 매장 정보 파일을 하나로 병합하였다. 그 후 지역별 커피지수를 계산했다. 전국 매장 정보 각각의 브랜드 파일을 pandas의 concat으로 병합한 후 약간 미흡한 매장 데이터 전처리를 완료했다. 컬럼명 통일, 시도명 데이터 값 통일, 올바르지 않은 시군구명 수정, 중복 행 제거 등의 처리 후 최종 데이터가 나왔다. 예시로 주소에서 split함수를 통해 시군구명을 구한 결과 주소에 도명이 생략되는 경우 또는 주소 자체에 오타가 있는 등 위와 같이 원치 않는 시군구명이 입력되어 있었다. 추가로 중복 행 제거 등 전처리를 완료한 결과 아래와 같이 데이터프레임이 만들어졌다. 총 12607개의 매장 정보 파일을 저장하였다. 처음부터 모든 브랜드 데이터셋을 병합한 후에 전.. 2023. 2. 21.
[DAY 39] 미드프로젝트1 시작, 카페 체인별 매장 정보 수집과 전처리 20230209~20230219 으쌰으쌰팀2와 아이디어 발상, 주제 선정 시간을 거쳐 "커피지수"를 만들고 EDA에 활용해 보기로 결정하였다. 이번주는 강의가 없고 미드프로젝트에 몰입하는 주간이다. 우리팀은 커피지수를 만들고 지역별 특징을 도출하며 분석해보고 카페 창업을 한다고 가정할 때 도움을 줄 수 있는 인사이트를 얻는방향으로 진행할 계획이다. 활용할 카페 체인점 커피지수를 계산한다면 어떤 카페를 선정하여 계산에 활용할지를 정하는 것이 우선이었다. 2023년 1월 브랜드평판 1~10위의 카페를 선정했으며 아래와 같이 아메리카노 1ml당 가격을 계산하였고 이는 고가형, 저가형 브랜드로 구분하는 근거가 된다. 브랜드명 1ml당 원 커피빈 14.08 폴바셋 13.05 할리스 12.71 스타벅스, 투썸플레이.. 2023. 2. 20.
[DAY 30] EDA - 국가,권역별 전산업,소부장 산업별 수출/수입금액 최초 데이터를 Tidy Data로 만드는 등 전처리 과정을 거치고 EDA하였다. 데이터 시각화는 plotly와 seaborn을 활용하였다. 최초 데이터 확인 데이터를 pandas로 로드하여 변수 raw에 저장하였다. 데이터 출처는 공공데이터포털이다. raw.head(3) raw를 확인해보면 연도와 월 값이 옆으로 쭉 늘어져 있는 형태임을 알 수 있다. 208행 132열의 구조를 가지고 있었다. 또한 결측치를 확인해보자. sns.heatmap(raw.isnull(), cmap='gray_r') seaborn의 heatmap을 사용하여 확인해보면 검은색으로 특정 열에 결측치가 있음을 확인할 수 있다. 데이터 전처리 앞 4개의 컬럼은 분석하기 좋은 형태로 되어있으므로 해당 컬럼들을 기준으로 raw를 melt하.. 2023. 2. 7.
전국 신규 아파트 분양가격 동향 분석, seaborn을 이용한 시각화 전혀 다른 형태의 두 데이터를 전처리하고 하나의 데이터프레임으로 병합한다. 병합된 데이터프레임을 다루어 데이터를 요약, 분석하고 다양한 방법으로 시각화한다. 라이브러리 임포트 데이터분석과 시각화에 사용될 라이브러리를 임포트한다. 그래프에서 정상적인 한글 표현을 위해 koreanize-matplotlib을 사용한다. import koreanize_matplotlib import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt 데이터 로드 2013~2015 전국 지역별 평균 분양가격 데이터를 df_first에, 2015~2021 전국 지역별 평균 분양가격 데이터를 df_last 변수에 로드한다. 데이터는.. 2023. 2. 6.
반응형