본문 바로가기
AI SCHOOL/TIL

[DAY 42] 미드프로젝트1 - 커피지수 계산식 확정, 100만 행이 넘는 데이터, 본격적인 분석과 시각화

2023. 2. 23.

우리 팀의 원활한 진행에 며칠간 걸림돌이 되던 커피지수의 계산식을 확정 지었다.

데이터 분석과 시각화를 본격적으로 시작했다.
엑셀로 열리지 않는 대용량 데이터를 다뤄봤다.

커피지수 계산식

지역별 전체 브랜드의 매장 수 대비 특정 브랜드의 비율과 아메리카노 1ml를 기준으로 지정한 평균 단가를 통한 계산식을 고안해 내어 커피지수를 확정했다.
전국 시도별 커피지수는 지역의 평균 1ml당 단가를 전국 평균 1ml당 단가로 나누어 계산하고, 서울 지역의 자치구별 커피지수는 구별 평균 1ml당 단가를 서울 평균 1ml당 단가로 나누어 계산하는 방식이다.

coffeeidx
커피지수 계산식


서울에 국한하여 계산한 결과로는 지역의 발전 수준이나 경제적 수준에 거의 일치하게끔 계산이 되었으나, 전국 기준 계산에서는 대구가 1위 서울이 5위가 되었다.
커피지수 계산 결과가 예상했던 것과 다르지만, 해당 결과가 어떤 이유에서 나오게 된 건지 분석해 나가는 과정이 의미가 있다고 생각하여 그런 방향의 분석으로 나아가자는 게 팀원들의 공통 의견이었다.

단순 카페 수, 인구수에 정비례하는 지수가 아닌, 브랜드별 비율과 가격을 근거로 한 커피지수로 확정 짓게 되어 마음이 편안했다.

분석, 시각화 시작

팀원들이 여러 데이터들(쇼핑센터, 백화점 등 대규모 점포, 지하철, 소득 수준, 대학교 수 등)을 수집하여 그 요인들을 통해 지역별 특징을 도출해 보고 커피지수와 연결 지어 생각하는 방향으로 분석이 진행되었다.

나는 우리 팀이 선정한 프랜차이즈의 매장 수에 중소 프랜차이즈와 개인카페 등이 포함된 모든 커피전문점 수를 추가로 수집해서 지역별 전체 커피전문점 수와 체인점의 비율 등을 계산해 보고 분석하였다.

커피전문점 데이터를 수집하는 중 이슈
지방행정인허가데이터개방 - LOCALDATA에서 일반음식점, 휴게음식점 데이터를 가져와서 업태 조건을 통해 커피전문점을 추출하려는 과정에서 일반음식점 데이터가 너무 커서 excel로 정상적으로 열리지 않았다
휴게음식점도 50만 행이 넘어 엑셀이 원활하지 않았는데, 일반음식점은 200만 행이 넘어 excel을 통해 데이터를 온전히 확인하는 것부터 불가능했다.

excelpopup
너무 큰 데이터셋으로 인한 경고

실제로는 200만 행이 넘지만 확인을 눌러 엑셀로 열었을 때 1048575행밖에 확인되지 않았다.
그러나 Python pandas를 사용하여 어렵지 않게 원하는 데이터를 얻을 수 있었다.
역시 이렇게 대용량 데이터를 핸들링하기 위한 부분이 파이썬 사용 이유 중 하나인 것 같다.

분석 과정에서 발견한 재미있는 점
1. 커피전문점 개수와 전체 대비 체인점 비율 사이에 약한 양의 상관관계가 있던 전국 시도별 기준과 달리, 서울시 기준에선 의미 있는 음의 상관관계가 확인되었다.
2. 전국을 기준으로 할 때에 비해 서울을 기준으로 할 때 커피지수와 전체 대비 체인점 비율 사이의 음의 상관관계가 뚜렷해졌다.

앞으로 팀원들과 함께 다각도의 분석을 통해 유의미하고 재미있는 인사이트를 도출했으면 좋겠다.

반응형

댓글