본문 바로가기
AI SCHOOL/TIL

[DAY 39] 미드프로젝트1 시작, 카페 체인별 매장 정보 수집과 전처리

2023. 2. 20.

20230209~20230219 으쌰으쌰팀2와 아이디어 발상, 주제 선정 시간을 거쳐 "커피지수"를 만들고 EDA에 활용해 보기로 결정하였다.

이번주는 강의가 없고 미드프로젝트에 몰입하는 주간이다.
우리팀은 커피지수를 만들고 지역별 특징을 도출하며 분석해보고 카페 창업을 한다고 가정할 때 도움을 줄 수 있는 인사이트를 얻는방향으로 진행할 계획이다.

활용할 카페 체인점

커피지수를 계산한다면 어떤 카페를 선정하여 계산에 활용할지를 정하는 것이 우선이었다.

cafe

2023년 1월 브랜드평판 1~10위의 카페를 선정했으며
아래와 같이 아메리카노 1ml당 가격을 계산하였고 이는 고가형, 저가형 브랜드로 구분하는 근거가 된다.

브랜드명 1ml당 원
커피빈 14.08
폴바셋 13.05
할리스 12.71
스타벅스,
투썸플레이스,
엔제리너스
12.67
파스쿠찌 11.68
이디야 8.33
빽다방 3.75
메가커피,
컴포즈커피
2.64

 

브랜드별 전국 매장 정보 수집

현 시점 전국 매장 정보를 수집했다.
선정한 모든 브랜드의 전국 매장 정보를 BeautifulSoup, selenium 등의 방법으로 수집하여 파일로 저장하고 Github에 업로드하였다.

store
수집한 브랜드별 전국 매장 정보

 

브랜드별 매장 데이터 전처리

각 브랜드별로 제공하는 정보가 달랐기 때문에 Python을 이용하여 데이터프레임으로 활용하려면 형태를 통일해야할 필요가 있었다.
pandas를 이용하여 브랜드명, 지점명, 시도명, 시군구명, 주소 컬럼으로 필요한 데이터를 정리했다.

paiks


내일은 전처리를 완료한 브랜드별 데이터셋을 분석에 활용해볼 수 있을 것 같다.

반응형

댓글