AI School111 [DAY 46] Week 11 Insight Day 20230302(목) 인사이트 데이 오랜만인 인사이트 데이로 머리를 식힌 것 같다. 으쌰으쌰팀2와는 첫 인사이트데이였고 그와 동시에 으쌰으쌰팀3이 공지되었다. 오전 으쌰으쌰팀2와 함께 소회의실에서 자습을 했다. 이번주에는 EDA연습과 머신러닝 예습 과제가 있어서 과제를 하며 시간을 보냈다. 으쌰으쌰팀2 팀원들과는 프로젝트를 열심히 하느라 프로젝트 외적인 얘기는 별로 못한 것 같아서 아쉽다. 오후 지금 우리 SCHOOL은? 수강생 응답 데이터를 봤는데 EDA 주간에 "쉬웠다" 응답자가 한 명도 없었다. 역시 다들 느끼는 게 비슷한 것 같다. 다 같이 어려웠나 보다. 공부 습관, 루틴을 만든 분, 자습하는 것이 즐겁다고 하신 분, 어렵지만 꾸준하게 하고 계신 분처럼 열심히 사는 분들을 보며 나도 자극을 받았.. 2023. 3. 2. [DAY 45] Online Retail Data EDA 영국 온라인 소매점에서 발생한 거래에 대한 데이터셋을 가지고 EDA했다. 데이터 분석 시 각각의 데이터가 어떤 것을 의미하는지 정확히 파악해야하며, 그것을 수월하게 하기 위해선 도메인 지식이 뒷받침 되어야겠다는 것을 느꼈다. 데이터 정보 online retail 데이터를 사용한다. 강사님이 로드 시간 측면에서 excel보단 csv가 유리하므로 csv를 사용하는 것을 추천하셨다. 데이터를 로드하여 변수 df에 데이터프레임으로 저장하였다. 사용할 데이터는 541909 rows, 8 columns 데이터다. Attribute Information - InvoiceNo : 거래에 할당된 번호, 'C'로 시작하면 취소 거래를 나타낸다. - StockCode : 제품 코드, 각 제품에 고유하게 할당 - Descri.. 2023. 2. 28. [DAY 44] 스토리지, 메모리 사용량 관리 parquet, downcast 오전에 미드프로젝트1 발표와 회고를 진행했다. 총 8개 팀이 모두 열심히 하신 결과물을 봤다. 거의 모든 팀이 발표 시간 10분이 부족할 정도로 열정이 보였다. 강사님의 피드백은 우리 팀에 대한 것이 아니더라도 귀담아들을 부분이 많았다. 기억에 남는 프로젝트(팀) 선정, 셀프 리뷰, 피어 리뷰, 프로젝트 멘토진에 대한 만족도 조사를 완료하니 오전 시간이 지났다. 오후에는 parquet 포맷과 downcast에 대한 강의가 있었다. parquet 효율적인 데이터 저장 및 검색을 위해 설계된 오픈 소스, 열 지향 데이터 파일 형식 데이터 파일은 csv, xml, excel, json 등 다양한 포맷으로 저장이 가능하다. parquet도 그 중 하나다. parquet 파일 포맷을 통해 스토리지 사용량을 줄일 .. 2023. 2. 27. [DAY 43] 미드프로젝트1 마무리 20230224(금) ~ 20230225(토) 이틀간 미드프로젝트1의 마무리를 지었다. 발표에서 무엇을 보여줄 것인지 시각화 자료를 선택하고 흐름을 결정했다. 모든 팀원이 각 주제별 분석결과를 명확히 하기 위한 시각화에 시간을 쏟았다. 프로젝트의 전체적 흐름 전국 단위로도 많은 분석과 시각화를 시도했지만, 몇몇 지역은 프랜차이즈 카페 수 자체가 너무 적은 문제점이 있었으며 커피지수와 연관 지어 함께 분석할 데이터를 찾더라도 전국 시도별 데이터는 찾기 어려운 경우가 많아 서울시에 한해 유의미한 분석을 진행하기로 결정했다. 자치구별 프랜차이즈 매장 수, 주민등록 인구, 생활 인구, 유동 인구, 사업체 수, 사업체 종사자 수, 대규모 점포 수, 재정자립도 등이 어떻게 나타나는지 분석하고 커피지수와의 상관관계를.. 2023. 2. 26. [DAY 42] 미드프로젝트1 - 커피지수 계산식 확정, 100만 행이 넘는 데이터, 본격적인 분석과 시각화 우리 팀의 원활한 진행에 며칠간 걸림돌이 되던 커피지수의 계산식을 확정 지었다. 데이터 분석과 시각화를 본격적으로 시작했다. 엑셀로 열리지 않는 대용량 데이터를 다뤄봤다. 커피지수 계산식 지역별 전체 브랜드의 매장 수 대비 특정 브랜드의 비율과 아메리카노 1ml를 기준으로 지정한 평균 단가를 통한 계산식을 고안해 내어 커피지수를 확정했다. 전국 시도별 커피지수는 지역의 평균 1ml당 단가를 전국 평균 1ml당 단가로 나누어 계산하고, 서울 지역의 자치구별 커피지수는 구별 평균 1ml당 단가를 서울 평균 1ml당 단가로 나누어 계산하는 방식이다. 서울에 국한하여 계산한 결과로는 지역의 발전 수준이나 경제적 수준에 거의 일치하게끔 계산이 되었으나, 전국 기준 계산에서는 대구가 1위 서울이 5위가 되었다. 커.. 2023. 2. 23. 이전 1 ··· 10 11 12 13 14 15 16 ··· 23 다음 반응형