본문 바로가기

AI SCHOOL/TIL101

[DAY 41] 미드프로젝트1 - 프로젝트멘토 피드백, 커피지수 개편, 중간회고 진전이 많이 없었고 오히려 앞이 막힌 듯한 느낌을 받은 날이다. 프로젝트멘토 네 분이 오전, 오후에 각각 두 분씩 우리 팀과 진행 상황을 점검하고 피드백을 주셨다. 오전 멘토 피드백 지역별로 현재의 커피지수는 커피지수가 높을수록 해당 지역의 유동인구가 높다/낮다로 귀결이 되기 때문에 다른 정보를 이끌어내기 힘들다는 문제가 있다. 창업과 연관을 지으려면 폐업 리스크를 줄이기에 신뢰성을 줄 수 있는 다른 요소까지 고려를 해야한다. - 예를 들어 임대료, 매출 분석 등을 추가로 하고 유동 인구가 적어도 매출이 높은 지역을 도출하는 등 방안 1과 방안 2로 나누어 말씀을 주셨다. 방안 1 : 커피지수와 유동인구를 기반으로 지역분석 - 왜 높은 수치가 나오는가? - 예시 : 회사 수, 대학 수 등 상관관계를 분석.. 2023. 2. 22.
[DAY 40] 미드프로젝트1 - 카페 브랜드별 전국 매장 정보 병합, 커피지수 계산 팀원 개개인이 전처리한 각 카페 브랜드의 매장 정보 파일을 하나로 병합하였다. 그 후 지역별 커피지수를 계산했다. 전국 매장 정보 각각의 브랜드 파일을 pandas의 concat으로 병합한 후 약간 미흡한 매장 데이터 전처리를 완료했다. 컬럼명 통일, 시도명 데이터 값 통일, 올바르지 않은 시군구명 수정, 중복 행 제거 등의 처리 후 최종 데이터가 나왔다. 예시로 주소에서 split함수를 통해 시군구명을 구한 결과 주소에 도명이 생략되는 경우 또는 주소 자체에 오타가 있는 등 위와 같이 원치 않는 시군구명이 입력되어 있었다. 추가로 중복 행 제거 등 전처리를 완료한 결과 아래와 같이 데이터프레임이 만들어졌다. 총 12607개의 매장 정보 파일을 저장하였다. 처음부터 모든 브랜드 데이터셋을 병합한 후에 전.. 2023. 2. 21.
[DAY 39] 미드프로젝트1 시작, 카페 체인별 매장 정보 수집과 전처리 20230209~20230219 으쌰으쌰팀2와 아이디어 발상, 주제 선정 시간을 거쳐 "커피지수"를 만들고 EDA에 활용해 보기로 결정하였다. 이번주는 강의가 없고 미드프로젝트에 몰입하는 주간이다. 우리팀은 커피지수를 만들고 지역별 특징을 도출하며 분석해보고 카페 창업을 한다고 가정할 때 도움을 줄 수 있는 인사이트를 얻는방향으로 진행할 계획이다. 활용할 카페 체인점 커피지수를 계산한다면 어떤 카페를 선정하여 계산에 활용할지를 정하는 것이 우선이었다. 2023년 1월 브랜드평판 1~10위의 카페를 선정했으며 아래와 같이 아메리카노 1ml당 가격을 계산하였고 이는 고가형, 저가형 브랜드로 구분하는 근거가 된다. 브랜드명 1ml당 원 커피빈 14.08 폴바셋 13.05 할리스 12.71 스타벅스, 투썸플레이.. 2023. 2. 20.
[DAY 38] 통계 마지막 날 - 모형 선택, overfitting, 교차 검증, 단계적 회귀분석, 다중공선성, 잔차분석, 상호작용 벌써 Special Lecture 통계의 마지막 날이 됐다. 통계는 배울수록 어려운 것도 많지만 재미있는 것도 많은 것 같다. 모형 선택 과대적합(overfitting) - 최소제곱법은 잔차분산이 가장 작은 계수를 추정 - 주어진 표본에 가장 맞는 계수를 찾게 된다 - 표집 오차가 존재하기 때문에, 주어진 표본에 지나치게 맞는데 계수를 추정하면 모집단의 계수와 다를 수 있다 독립변수의 개수와 과적합 - 최소제곱법은 잔차분산이 작아지는 방향으로 계수를 추정 - 종속변수와 아무 관련이 없는 독립변수를 추가하더라도 잔차분산이 커지는 경우는 없다 - 모집단에서는 아무 관련이 없어도 표본에서는 약간의 관계라도 있을 수 있으므로 잔차분산은 작아지게 된다 - 독립변수가 많으면 많을 수록 잔차분산은 무조건 작아진다(R.. 2023. 2. 17.
[DAY 37] 상관 분석, 상관 계수, 상관과 인과, 심슨의 역설, 회귀 분석, 다중 회귀 분석 집단 비교에 대한 개념을 체크하는 문제 풀이를 먼저 진행했다. 각 검정 방법이 어떤 상황에 사용하는지에 대해 익혔다. 그 후 상관 분석, 회귀 분석 등에 대해 학습했다. 제3의 변인, 상관과 인과, 심슨의 역설 관련 부분이 특히 흥미로웠다. 상관 분석 상관 계수(correlation coefficient) - 두 변수의 연관성을 -1 ~ +1 범위의 수치로 나타낸 것 - 두 변수의 연관성을 파악하기 위해 사용 - 어휘력과 독해력의 관계 - 주가와 금 가격의 관계 - 엔진 성능과 고객만족도의 관계 상관계수의 해석 부호 - 플러스(+) : 두 변수가 같은 방향으로 변화(하나가 증가하면 다른 하나도 증가) - 마이너스(-) : 두 변수가 반대 방향으로 변화(하나가 증가하면 다른 하나는 감소) 크기 - 0 : .. 2023. 2. 17.
반응형