전체 글135 [DAY 42] 미드프로젝트1 - 커피지수 계산식 확정, 100만 행이 넘는 데이터, 본격적인 분석과 시각화 우리 팀의 원활한 진행에 며칠간 걸림돌이 되던 커피지수의 계산식을 확정 지었다. 데이터 분석과 시각화를 본격적으로 시작했다. 엑셀로 열리지 않는 대용량 데이터를 다뤄봤다. 커피지수 계산식 지역별 전체 브랜드의 매장 수 대비 특정 브랜드의 비율과 아메리카노 1ml를 기준으로 지정한 평균 단가를 통한 계산식을 고안해 내어 커피지수를 확정했다. 전국 시도별 커피지수는 지역의 평균 1ml당 단가를 전국 평균 1ml당 단가로 나누어 계산하고, 서울 지역의 자치구별 커피지수는 구별 평균 1ml당 단가를 서울 평균 1ml당 단가로 나누어 계산하는 방식이다. 서울에 국한하여 계산한 결과로는 지역의 발전 수준이나 경제적 수준에 거의 일치하게끔 계산이 되었으나, 전국 기준 계산에서는 대구가 1위 서울이 5위가 되었다. 커.. 2023. 2. 23. [DAY 41] 미드프로젝트1 - 프로젝트멘토 피드백, 커피지수 개편, 중간회고 진전이 많이 없었고 오히려 앞이 막힌 듯한 느낌을 받은 날이다. 프로젝트멘토 네 분이 오전, 오후에 각각 두 분씩 우리 팀과 진행 상황을 점검하고 피드백을 주셨다. 오전 멘토 피드백 지역별로 현재의 커피지수는 커피지수가 높을수록 해당 지역의 유동인구가 높다/낮다로 귀결이 되기 때문에 다른 정보를 이끌어내기 힘들다는 문제가 있다. 창업과 연관을 지으려면 폐업 리스크를 줄이기에 신뢰성을 줄 수 있는 다른 요소까지 고려를 해야한다. - 예를 들어 임대료, 매출 분석 등을 추가로 하고 유동 인구가 적어도 매출이 높은 지역을 도출하는 등 방안 1과 방안 2로 나누어 말씀을 주셨다. 방안 1 : 커피지수와 유동인구를 기반으로 지역분석 - 왜 높은 수치가 나오는가? - 예시 : 회사 수, 대학 수 등 상관관계를 분석.. 2023. 2. 22. [DAY 40] 미드프로젝트1 - 카페 브랜드별 전국 매장 정보 병합, 커피지수 계산 팀원 개개인이 전처리한 각 카페 브랜드의 매장 정보 파일을 하나로 병합하였다. 그 후 지역별 커피지수를 계산했다. 전국 매장 정보 각각의 브랜드 파일을 pandas의 concat으로 병합한 후 약간 미흡한 매장 데이터 전처리를 완료했다. 컬럼명 통일, 시도명 데이터 값 통일, 올바르지 않은 시군구명 수정, 중복 행 제거 등의 처리 후 최종 데이터가 나왔다. 예시로 주소에서 split함수를 통해 시군구명을 구한 결과 주소에 도명이 생략되는 경우 또는 주소 자체에 오타가 있는 등 위와 같이 원치 않는 시군구명이 입력되어 있었다. 추가로 중복 행 제거 등 전처리를 완료한 결과 아래와 같이 데이터프레임이 만들어졌다. 총 12607개의 매장 정보 파일을 저장하였다. 처음부터 모든 브랜드 데이터셋을 병합한 후에 전.. 2023. 2. 21. [DAY 39] 미드프로젝트1 시작, 카페 체인별 매장 정보 수집과 전처리 20230209~20230219 으쌰으쌰팀2와 아이디어 발상, 주제 선정 시간을 거쳐 "커피지수"를 만들고 EDA에 활용해 보기로 결정하였다. 이번주는 강의가 없고 미드프로젝트에 몰입하는 주간이다. 우리팀은 커피지수를 만들고 지역별 특징을 도출하며 분석해보고 카페 창업을 한다고 가정할 때 도움을 줄 수 있는 인사이트를 얻는방향으로 진행할 계획이다. 활용할 카페 체인점 커피지수를 계산한다면 어떤 카페를 선정하여 계산에 활용할지를 정하는 것이 우선이었다. 2023년 1월 브랜드평판 1~10위의 카페를 선정했으며 아래와 같이 아메리카노 1ml당 가격을 계산하였고 이는 고가형, 저가형 브랜드로 구분하는 근거가 된다. 브랜드명 1ml당 원 커피빈 14.08 폴바셋 13.05 할리스 12.71 스타벅스, 투썸플레이.. 2023. 2. 20. [DAY 38] 통계 마지막 날 - 모형 선택, overfitting, 교차 검증, 단계적 회귀분석, 다중공선성, 잔차분석, 상호작용 벌써 Special Lecture 통계의 마지막 날이 됐다. 통계는 배울수록 어려운 것도 많지만 재미있는 것도 많은 것 같다. 모형 선택 과대적합(overfitting) - 최소제곱법은 잔차분산이 가장 작은 계수를 추정 - 주어진 표본에 가장 맞는 계수를 찾게 된다 - 표집 오차가 존재하기 때문에, 주어진 표본에 지나치게 맞는데 계수를 추정하면 모집단의 계수와 다를 수 있다 독립변수의 개수와 과적합 - 최소제곱법은 잔차분산이 작아지는 방향으로 계수를 추정 - 종속변수와 아무 관련이 없는 독립변수를 추가하더라도 잔차분산이 커지는 경우는 없다 - 모집단에서는 아무 관련이 없어도 표본에서는 약간의 관계라도 있을 수 있으므로 잔차분산은 작아지게 된다 - 독립변수가 많으면 많을 수록 잔차분산은 무조건 작아진다(R.. 2023. 2. 17. 이전 1 ··· 12 13 14 15 16 17 18 ··· 27 다음 반응형