진전이 많이 없었고 오히려 앞이 막힌 듯한 느낌을 받은 날이다.
프로젝트멘토 네 분이 오전, 오후에 각각 두 분씩 우리 팀과 진행 상황을 점검하고 피드백을 주셨다.
오전 멘토 피드백
지역별로 현재의 커피지수는 커피지수가 높을수록 해당 지역의 유동인구가 높다/낮다로 귀결이 되기 때문에 다른 정보를 이끌어내기 힘들다는 문제가 있다.
창업과 연관을 지으려면 폐업 리스크를 줄이기에 신뢰성을 줄 수 있는 다른 요소까지 고려를 해야한다.
- 예를 들어 임대료, 매출 분석 등을 추가로 하고 유동 인구가 적어도 매출이 높은 지역을 도출하는 등
방안 1과 방안 2로 나누어 말씀을 주셨다.
방안 1 : 커피지수와 유동인구를 기반으로 지역분석
- 왜 높은 수치가 나오는가?
- 예시 : 회사 수, 대학 수 등 상관관계를 분석하여 단순히 생각하는 것이 아닌 데이터를 바탕으로 수치를 보여주는 과정
방안 2 : 매출분석과 임대료 분석 등 종합 정보 제공
- 자영업자 입장에서 폐업 리스크를 줄이는 정보 제공
- 예시 : 커피지수를 분자로, 임대료를 분모로 하여 가장 높은 지역은?
- 예시 : 유동인구 대비 임대료가 높은 지역은?
나는 방안 2에 마음이 갔으나 팀원 과반수의 의견이 방안 1 쪽으로 수렴하여 방안 1을 중점적으로, 방안 2는 곁들여서 하는 방향으로 잡았다.
커피지수의 문제점 - 활동 주요 주제
커피지수의 계산 식이 지역별 매장의 총 개수에 비례하도록 되어 있어서 지수를 계산할 때부터 유동인구가 많을수록 높게 나오는 구조
- 회사, 대학교 등과 상관관계를 분석하기 전에 매장 수의 절대적 많고 적음에 영향을 받지 않는 커피지수 계산식을 다시 생각해볼 필요가 있다.
나의 새로운 커피지수
고가형 브랜드 / 저가형 브랜드 형태를 기본으로, 최저가를 1로 둔 후 가격 비율에 따른 가중치를 두어 고가형 브랜드가 많으면 지수가 높게 나오는 형태
=> 하지만 시도별로 실제로 계산해본 결과 대구가 1위, 서울이 3위가 되는 값이 나왔기 때문에 지역 발전과는 거리가 있다.
팀원분의 새로운 커피지수
전체 매장 개수를 기준으로 중위수를 1로 두고 매장 수가 적을수록 가중치를 부여
- 브랜드의 희귀도에 따라 가중치를 부여하여 매장 수와 가중치를 곱한 값의 합
=> 기존의 식에 가중치를 변경한 형태
오후 멘토 피드백
전체 대비 지표를 활용한 계산은 해봤는가?
- 면적 대비를 하려니 관악산 등 산이 있기 때문에 지역의 면적이 넓더라도 실제 사용 면적은 적을 수 있다.
- 인구 대비 커피지수는 커피지수가 기본적으로 인구에 비례하기 때문에 커피지수를 인구로 나누면 모든 지역이 거의 균일한 값이 도출되는 문제
=> 인구 부분은 내가 데이터를 찾아 커피지수와 조합해보려 시도했지만 커피지수가 15세이상 인구, 경제활동 인구, 남자 인구, 여자 인구 등 인구수와 1에 가까운 상관계수를 가지고 있었다. 커피지수의 문제점을 언급하게 된 부분 중 하나.
팀원분의 새로운 계산식을 듣고
- 희귀하다고 해서 높은 가중치로 하는 게 맞을까 고민해 볼 필요
- 가중치는 납득 가능해야 한다 지금까지
분석, 시각화한 것이 있는가?
- 일단 지금 가지고 있는 데이터에서 EDA를 많이 해서 발표를 준비하고, 커피지수를 정비하여 지도 시각화로 완성하는 방향 추천
참고 자료는 이유가 중요
- 전혀 연관이 없는 자료를 참고하면 이상하다
중간 회고
1. 데이터를 준비하고 전처리하는 것은 매우 중요하다.
분석을 하다 보니 특정 브랜드의 데이터 수가 실제보다 적은 것 같은 느낌을 받았다.
살펴보니 서울 5개 구 데이터가 수집 과정에서 누락된 것이었다.
이렇게 분석 과정에서도 데이터셋 자체의 문제가 발견되는 것을 보고 전체 데이터분석 과정에서 데이터 정제와 데이터 준비가 70~80%를 차지한다는 말이 괜히 있는 것이 아니구나 생각했다.
2. 커피지수 자체가 DAY 31에 분석한 버거지수에 영향을 받아 생각해 낸 것이기 때문에 버거지수처럼 어렵지 않게 원하는 결과가 도출되는 것을 예상했으나 쉽지 않은 것 같다.
버거지수는 특별한 케이스일 뿐, 이렇게 많은 카페 브랜드를 포함하여 단순히 매장 개수가 많으면 높아지는 지수 형식이 아니면서도 지역별 발전 수준을 반영할만한 커피지수를 만든다는 것이 애초에 요행을 바라는 것이 아닐까라는 생각이 들었다.
창업까지 연결 지어 생각해보면 더욱 복잡해지는데, 지역별 브랜드 매장 개수와 다른 변수 몇 가지를 포함시켜 창업에 실질적으로 활용할만한 좋은 지표를 도출해내는 역량이 있다면 지금 이렇게 데이터분석을 배우고 프로젝트를 진행하고 있지 않을 것 같다는 생각을 했다.
3. 고민만 하다간 아무 것도 되지 않는다.
지금의 고뇌가 성장 밑거름이라고 생각한다. 하지만 너무 오랜 고뇌는 독일 것 같다. 훌륭한 지수를 계산해 내는 측면에 너무 얽매이지 않아야겠다.
현재 가지고 있는 데이터셋을 기반으로 꼭 커피지수와 연결 짓지 않더라도 많은 EDA를 경험하자는 쪽으로 팀 분위기가 흘러갔다.
'AI SCHOOL > TIL' 카테고리의 다른 글
[DAY 43] 미드프로젝트1 마무리 (0) | 2023.02.26 |
---|---|
[DAY 42] 미드프로젝트1 - 커피지수 계산식 확정, 100만 행이 넘는 데이터, 본격적인 분석과 시각화 (0) | 2023.02.23 |
[DAY 40] 미드프로젝트1 - 카페 브랜드별 전국 매장 정보 병합, 커피지수 계산 (0) | 2023.02.21 |
[DAY 39] 미드프로젝트1 시작, 카페 체인별 매장 정보 수집과 전처리 (0) | 2023.02.20 |
[DAY 38] 통계 마지막 날 - 모형 선택, overfitting, 교차 검증, 단계적 회귀분석, 다중공선성, 잔차분석, 상호작용 (0) | 2023.02.17 |
댓글