본문 바로가기

멋쟁이사자처럼109

[DAY 45] Online Retail Data EDA 영국 온라인 소매점에서 발생한 거래에 대한 데이터셋을 가지고 EDA했다. 데이터 분석 시 각각의 데이터가 어떤 것을 의미하는지 정확히 파악해야하며, 그것을 수월하게 하기 위해선 도메인 지식이 뒷받침 되어야겠다는 것을 느꼈다. 데이터 정보 online retail 데이터를 사용한다. 강사님이 로드 시간 측면에서 excel보단 csv가 유리하므로 csv를 사용하는 것을 추천하셨다. 데이터를 로드하여 변수 df에 데이터프레임으로 저장하였다. 사용할 데이터는 541909 rows, 8 columns 데이터다. Attribute Information - InvoiceNo : 거래에 할당된 번호, 'C'로 시작하면 취소 거래를 나타낸다. - StockCode : 제품 코드, 각 제품에 고유하게 할당 - Descri.. 2023. 2. 28.
[DAY 44] 스토리지, 메모리 사용량 관리 parquet, downcast 오전에 미드프로젝트1 발표와 회고를 진행했다. 총 8개 팀이 모두 열심히 하신 결과물을 봤다. 거의 모든 팀이 발표 시간 10분이 부족할 정도로 열정이 보였다. 강사님의 피드백은 우리 팀에 대한 것이 아니더라도 귀담아들을 부분이 많았다. 기억에 남는 프로젝트(팀) 선정, 셀프 리뷰, 피어 리뷰, 프로젝트 멘토진에 대한 만족도 조사를 완료하니 오전 시간이 지났다. 오후에는 parquet 포맷과 downcast에 대한 강의가 있었다. parquet 효율적인 데이터 저장 및 검색을 위해 설계된 오픈 소스, 열 지향 데이터 파일 형식 데이터 파일은 csv, xml, excel, json 등 다양한 포맷으로 저장이 가능하다. parquet도 그 중 하나다. parquet 파일 포맷을 통해 스토리지 사용량을 줄일 .. 2023. 2. 27.
[DAY 43] 미드프로젝트1 마무리 20230224(금) ~ 20230225(토) 이틀간 미드프로젝트1의 마무리를 지었다. 발표에서 무엇을 보여줄 것인지 시각화 자료를 선택하고 흐름을 결정했다. 모든 팀원이 각 주제별 분석결과를 명확히 하기 위한 시각화에 시간을 쏟았다. 프로젝트의 전체적 흐름 전국 단위로도 많은 분석과 시각화를 시도했지만, 몇몇 지역은 프랜차이즈 카페 수 자체가 너무 적은 문제점이 있었으며 커피지수와 연관 지어 함께 분석할 데이터를 찾더라도 전국 시도별 데이터는 찾기 어려운 경우가 많아 서울시에 한해 유의미한 분석을 진행하기로 결정했다. 자치구별 프랜차이즈 매장 수, 주민등록 인구, 생활 인구, 유동 인구, 사업체 수, 사업체 종사자 수, 대규모 점포 수, 재정자립도 등이 어떻게 나타나는지 분석하고 커피지수와의 상관관계를.. 2023. 2. 26.
[DAY 42] 미드프로젝트1 - 커피지수 계산식 확정, 100만 행이 넘는 데이터, 본격적인 분석과 시각화 우리 팀의 원활한 진행에 며칠간 걸림돌이 되던 커피지수의 계산식을 확정 지었다. 데이터 분석과 시각화를 본격적으로 시작했다. 엑셀로 열리지 않는 대용량 데이터를 다뤄봤다. 커피지수 계산식 지역별 전체 브랜드의 매장 수 대비 특정 브랜드의 비율과 아메리카노 1ml를 기준으로 지정한 평균 단가를 통한 계산식을 고안해 내어 커피지수를 확정했다. 전국 시도별 커피지수는 지역의 평균 1ml당 단가를 전국 평균 1ml당 단가로 나누어 계산하고, 서울 지역의 자치구별 커피지수는 구별 평균 1ml당 단가를 서울 평균 1ml당 단가로 나누어 계산하는 방식이다. 서울에 국한하여 계산한 결과로는 지역의 발전 수준이나 경제적 수준에 거의 일치하게끔 계산이 되었으나, 전국 기준 계산에서는 대구가 1위 서울이 5위가 되었다. 커.. 2023. 2. 23.
[DAY 41] 미드프로젝트1 - 프로젝트멘토 피드백, 커피지수 개편, 중간회고 진전이 많이 없었고 오히려 앞이 막힌 듯한 느낌을 받은 날이다. 프로젝트멘토 네 분이 오전, 오후에 각각 두 분씩 우리 팀과 진행 상황을 점검하고 피드백을 주셨다. 오전 멘토 피드백 지역별로 현재의 커피지수는 커피지수가 높을수록 해당 지역의 유동인구가 높다/낮다로 귀결이 되기 때문에 다른 정보를 이끌어내기 힘들다는 문제가 있다. 창업과 연관을 지으려면 폐업 리스크를 줄이기에 신뢰성을 줄 수 있는 다른 요소까지 고려를 해야한다. - 예를 들어 임대료, 매출 분석 등을 추가로 하고 유동 인구가 적어도 매출이 높은 지역을 도출하는 등 방안 1과 방안 2로 나누어 말씀을 주셨다. 방안 1 : 커피지수와 유동인구를 기반으로 지역분석 - 왜 높은 수치가 나오는가? - 예시 : 회사 수, 대학 수 등 상관관계를 분석.. 2023. 2. 22.
반응형