본문 바로가기
AI SCHOOL/TIL

[DAY 40] 미드프로젝트1 - 카페 브랜드별 전국 매장 정보 병합, 커피지수 계산

2023. 2. 21.

팀원 개개인이 전처리한 각 카페 브랜드의 매장 정보 파일을 하나로 병합하였다.

그 후 지역별 커피지수를 계산했다.

전국 매장 정보

각각의 브랜드 파일을 pandas의 concat으로 병합한 후 약간 미흡한 매장 데이터 전처리를 완료했다.
컬럼명 통일, 시도명 데이터 값 통일, 올바르지 않은 시군구명 수정, 중복 행 제거 등의 처리 후 최종 데이터가 나왔다.

df1
올바르지 않은 시군구명

예시로 주소에서 split함수를 통해 시군구명을 구한 결과 주소에 도명이 생략되는 경우 또는 주소 자체에 오타가 있는 등 위와 같이 원치 않는 시군구명이 입력되어 있었다.

추가로 중복 행 제거 등 전처리를 완료한 결과 아래와 같이 데이터프레임이 만들어졌다.

df2
전체 브랜드 매장 정보

총 12607개의 매장 정보 파일을 저장하였다.

처음부터 모든 브랜드 데이터셋을 병합한 후에 전처리를 하는 방법도 있었겠지만, 팀원 모두가 데이터셋을 정제하고 필요한 데이터를 준비하는 경험을 했다는 점에서 의미가 있는 것 같다.

커피지수 계산

아래는 전체 매장 데이터셋을 이용하여 시도별 브랜드별 매장 수와 합계를 계산한 것이다.

national


지역별 매장 수를 기반으로 커피지수를 계산했다.

coffeeidx
계산된 커피 지수

커피지수 계산은 아래와 같이 브랜드별 가중치를 두었다.

priceidx

가중치는 ml당 가격을 기반으로 중위수를 1로 둔 것이며 가중치를 각 지역별 매장 수에 곱하여 더한 값이 커피지수가 되었다.

계산된 커피지수가 지역별 발전 수준을 나타내는 지표로써의 가치가 있다고 생각되기는 하나, 커피지수를 창업과 연관시키려니 그 부분에서 아이디어를 내기가 쉽지 않았다.

일단 인구 수, 유동인구 수 등 다른 지표와 연관지어 커피지수가 높은/낮은 지역이 어떤 특성이 있는지 분석해보고 창업과 관련한 인사이트를 도출해보는 방향으로 생각하게 되었다.

우리 팀이 풀어가야 할 숙제가 아직 많은 것 같다.

반응형

댓글