본문 바로가기

eda12

[DAY 70] 미드프로젝트2 마무리 하루동안 미드프로젝트2 마무리를 지었다. PPT와 팀 노션 페이지를 정리했고 발표의 흐름과 내용을 구성했다. 열정적이고 꼼꼼한 팀원들의 덕을 많이 봤다. 프로젝트 요약 데이터 전처리 및 EDA는 팀원 모두가 전부 경험했다. 예측해야 하는 값인 중식계와 석식계가 높은 양의 상관관계를 보이는 것을 확인했고, 산점도를 그려보니 회귀선과 비슷한 분포를 나타내는 것을 보고 머신러닝으로 중식 수요를 예측 후 이 예측값을 다시 독립변수로 사용하여 석식 수요를 예측해 보는 방법을 생각했으며 데이터셋이 2016년부터 2021년까지의 데이터이므로 일부 기간 코로나 기간이어서 재택근무자 수가 생긴 것을 확인하는 등 EDA를 통해 머신러닝을 어떻게 진행해야할지 아이디어를 많이 얻었다. 머신러닝 모델은 AutoML 라이브러리 .. 2023. 4. 5.
[WEEK 11] 멋쟁이사자처럼 AI 스쿨 11주차 AI SCHOOL 8기의 절반 지점을 앞두고 있는 11주차에는 메모리와 스토리지 관리, 이커머스 데이터 분석을 했다. 미드프로젝트1 발표와 회고, 공휴일이 있었기 때문에 학습량은 많지 않았다. 이번주의 키워드로 parquet, csv, file format, downcast, 이커머스 데이터 EDA를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 저장하는 파일 형식에 따라 저장소를 덜 차지하도록 저장할 수 있다는 것을 배웠고, 실제로 같은 데이터를 csv와 parquet 형식으로 각각 저장하여 파일 사이즈 차이를 확인하였다. 또한 downcast를 통해 판다스 데이터프레임의 메모리 사용량을 줄이는 방법을 알게 되었다. DAY 44 [DAY 44] 스토리지, 메모리 사용량 관리 parquet,.. 2023. 3. 2.
[DAY 45] Online Retail Data EDA 영국 온라인 소매점에서 발생한 거래에 대한 데이터셋을 가지고 EDA했다. 데이터 분석 시 각각의 데이터가 어떤 것을 의미하는지 정확히 파악해야하며, 그것을 수월하게 하기 위해선 도메인 지식이 뒷받침 되어야겠다는 것을 느꼈다. 데이터 정보 online retail 데이터를 사용한다. 강사님이 로드 시간 측면에서 excel보단 csv가 유리하므로 csv를 사용하는 것을 추천하셨다. 데이터를 로드하여 변수 df에 데이터프레임으로 저장하였다. 사용할 데이터는 541909 rows, 8 columns 데이터다. Attribute Information - InvoiceNo : 거래에 할당된 번호, 'C'로 시작하면 취소 거래를 나타낸다. - StockCode : 제품 코드, 각 제품에 고유하게 할당 - Descri.. 2023. 2. 28.
[DAY 43] 미드프로젝트1 마무리 20230224(금) ~ 20230225(토) 이틀간 미드프로젝트1의 마무리를 지었다. 발표에서 무엇을 보여줄 것인지 시각화 자료를 선택하고 흐름을 결정했다. 모든 팀원이 각 주제별 분석결과를 명확히 하기 위한 시각화에 시간을 쏟았다. 프로젝트의 전체적 흐름 전국 단위로도 많은 분석과 시각화를 시도했지만, 몇몇 지역은 프랜차이즈 카페 수 자체가 너무 적은 문제점이 있었으며 커피지수와 연관 지어 함께 분석할 데이터를 찾더라도 전국 시도별 데이터는 찾기 어려운 경우가 많아 서울시에 한해 유의미한 분석을 진행하기로 결정했다. 자치구별 프랜차이즈 매장 수, 주민등록 인구, 생활 인구, 유동 인구, 사업체 수, 사업체 종사자 수, 대규모 점포 수, 재정자립도 등이 어떻게 나타나는지 분석하고 커피지수와의 상관관계를.. 2023. 2. 26.
[DAY 42] 미드프로젝트1 - 커피지수 계산식 확정, 100만 행이 넘는 데이터, 본격적인 분석과 시각화 우리 팀의 원활한 진행에 며칠간 걸림돌이 되던 커피지수의 계산식을 확정 지었다. 데이터 분석과 시각화를 본격적으로 시작했다. 엑셀로 열리지 않는 대용량 데이터를 다뤄봤다. 커피지수 계산식 지역별 전체 브랜드의 매장 수 대비 특정 브랜드의 비율과 아메리카노 1ml를 기준으로 지정한 평균 단가를 통한 계산식을 고안해 내어 커피지수를 확정했다. 전국 시도별 커피지수는 지역의 평균 1ml당 단가를 전국 평균 1ml당 단가로 나누어 계산하고, 서울 지역의 자치구별 커피지수는 구별 평균 1ml당 단가를 서울 평균 1ml당 단가로 나누어 계산하는 방식이다. 서울에 국한하여 계산한 결과로는 지역의 발전 수준이나 경제적 수준에 거의 일치하게끔 계산이 되었으나, 전국 기준 계산에서는 대구가 1위 서울이 5위가 되었다. 커.. 2023. 2. 23.