팀원 개개인이 전처리한 각 카페 브랜드의 매장 정보 파일을 하나로 병합하였다.
그 후 지역별 커피지수를 계산했다.
전국 매장 정보
각각의 브랜드 파일을 pandas의 concat으로 병합한 후 약간 미흡한 매장 데이터 전처리를 완료했다.
컬럼명 통일, 시도명 데이터 값 통일, 올바르지 않은 시군구명 수정, 중복 행 제거 등의 처리 후 최종 데이터가 나왔다.
예시로 주소에서 split함수를 통해 시군구명을 구한 결과 주소에 도명이 생략되는 경우 또는 주소 자체에 오타가 있는 등 위와 같이 원치 않는 시군구명이 입력되어 있었다.
추가로 중복 행 제거 등 전처리를 완료한 결과 아래와 같이 데이터프레임이 만들어졌다.
총 12607개의 매장 정보 파일을 저장하였다.
처음부터 모든 브랜드 데이터셋을 병합한 후에 전처리를 하는 방법도 있었겠지만, 팀원 모두가 데이터셋을 정제하고 필요한 데이터를 준비하는 경험을 했다는 점에서 의미가 있는 것 같다.
커피지수 계산
아래는 전체 매장 데이터셋을 이용하여 시도별 브랜드별 매장 수와 합계를 계산한 것이다.
지역별 매장 수를 기반으로 커피지수를 계산했다.
커피지수 계산은 아래와 같이 브랜드별 가중치를 두었다.
가중치는 ml당 가격을 기반으로 중위수를 1로 둔 것이며 가중치를 각 지역별 매장 수에 곱하여 더한 값이 커피지수가 되었다.
계산된 커피지수가 지역별 발전 수준을 나타내는 지표로써의 가치가 있다고 생각되기는 하나, 커피지수를 창업과 연관시키려니 그 부분에서 아이디어를 내기가 쉽지 않았다.
일단 인구 수, 유동인구 수 등 다른 지표와 연관지어 커피지수가 높은/낮은 지역이 어떤 특성이 있는지 분석해보고 창업과 관련한 인사이트를 도출해보는 방향으로 생각하게 되었다.
우리 팀이 풀어가야 할 숙제가 아직 많은 것 같다.
'AI SCHOOL > TIL' 카테고리의 다른 글
[DAY 42] 미드프로젝트1 - 커피지수 계산식 확정, 100만 행이 넘는 데이터, 본격적인 분석과 시각화 (0) | 2023.02.23 |
---|---|
[DAY 41] 미드프로젝트1 - 프로젝트멘토 피드백, 커피지수 개편, 중간회고 (0) | 2023.02.22 |
[DAY 39] 미드프로젝트1 시작, 카페 체인별 매장 정보 수집과 전처리 (0) | 2023.02.20 |
[DAY 38] 통계 마지막 날 - 모형 선택, overfitting, 교차 검증, 단계적 회귀분석, 다중공선성, 잔차분석, 상호작용 (0) | 2023.02.17 |
[DAY 37] 상관 분석, 상관 계수, 상관과 인과, 심슨의 역설, 회귀 분석, 다중 회귀 분석 (0) | 2023.02.17 |
댓글