20230209~20230219 으쌰으쌰팀2와 아이디어 발상, 주제 선정 시간을 거쳐 "커피지수"를 만들고 EDA에 활용해 보기로 결정하였다.
이번주는 강의가 없고 미드프로젝트에 몰입하는 주간이다.
우리팀은 커피지수를 만들고 지역별 특징을 도출하며 분석해보고 카페 창업을 한다고 가정할 때 도움을 줄 수 있는 인사이트를 얻는방향으로 진행할 계획이다.
활용할 카페 체인점
커피지수를 계산한다면 어떤 카페를 선정하여 계산에 활용할지를 정하는 것이 우선이었다.
2023년 1월 브랜드평판 1~10위의 카페를 선정했으며
아래와 같이 아메리카노 1ml당 가격을 계산하였고 이는 고가형, 저가형 브랜드로 구분하는 근거가 된다.
브랜드명 | 1ml당 원 |
커피빈 | 14.08 |
폴바셋 | 13.05 |
할리스 | 12.71 |
스타벅스, 투썸플레이스, 엔제리너스 |
12.67 |
파스쿠찌 | 11.68 |
이디야 | 8.33 |
빽다방 | 3.75 |
메가커피, 컴포즈커피 |
2.64 |
브랜드별 전국 매장 정보 수집
현 시점 전국 매장 정보를 수집했다.
선정한 모든 브랜드의 전국 매장 정보를 BeautifulSoup, selenium 등의 방법으로 수집하여 파일로 저장하고 Github에 업로드하였다.
브랜드별 매장 데이터 전처리
각 브랜드별로 제공하는 정보가 달랐기 때문에 Python을 이용하여 데이터프레임으로 활용하려면 형태를 통일해야할 필요가 있었다.
pandas를 이용하여 브랜드명, 지점명, 시도명, 시군구명, 주소 컬럼으로 필요한 데이터를 정리했다.
내일은 전처리를 완료한 브랜드별 데이터셋을 분석에 활용해볼 수 있을 것 같다.
반응형
'AI SCHOOL > TIL' 카테고리의 다른 글
[DAY 41] 미드프로젝트1 - 프로젝트멘토 피드백, 커피지수 개편, 중간회고 (0) | 2023.02.22 |
---|---|
[DAY 40] 미드프로젝트1 - 카페 브랜드별 전국 매장 정보 병합, 커피지수 계산 (0) | 2023.02.21 |
[DAY 38] 통계 마지막 날 - 모형 선택, overfitting, 교차 검증, 단계적 회귀분석, 다중공선성, 잔차분석, 상호작용 (0) | 2023.02.17 |
[DAY 37] 상관 분석, 상관 계수, 상관과 인과, 심슨의 역설, 회귀 분석, 다중 회귀 분석 (0) | 2023.02.17 |
[DAY 36] 효과 크기, 대응표본 t-검정, 분산 분석, 카이제곱 검정, 맥니마 검정 (0) | 2023.02.15 |
댓글