본문 바로가기

AI 스쿨111

[DAY 32] Week 8 Insight Day 미드프로젝트1 공지, 나 사용법 20230207(목) 인사이트 데이 미드프로젝트1과 으쌰으쌰팀2가 공지되었다. 나 사용법 Activity도 했다. 오전 으쌰으쌰팀1과 소회의실에 모여 자습을 했다. 프로젝트에 치였던 지난주와 달리 마음이 가벼웠다. 이제 익숙해진 으쌰으쌰팀1이 이번주가 끝이라니 시간 참 빠르다. 오후 수강생들의 설문 응답 데이터를 12월 데이터부터 지난주에 설문한 데이터까지 보여주셨다. 초반 부분인 파이썬 이론과 데이터 수집에서 어려웠다고 응답한 비율이 가장 컸고 SQL은 어려웠다고 응답한 비율이 가장 낮았다. 쉬웠다고 응답하는 비율은 매주 10% 이하로 나타났다. 나도 항상 보통을 응답했던 것 같다. 일정 공지 Special Lecture인 SQL이 벌써 내일 7회차가 되어 마지막 강의라고 한다. 다음주는 1주간 통계분.. 2023. 2. 9.
[DAY 31] 버거지수, 상관계수, plotly와 folium을 이용한 지도 시각화 한 도시의 발전 수준은 (버거킹 개수 + 맥도날드 개수 + KFC 개수) / 롯데리아 개수 값에 비례한다는 말이 사실일까? 실제 각 버거 체인점 개수를 확인하여 분석해봤다. 데이터 준비 공공데이터포털에 공개된 소상공인시장진흥공단_상가(상권)정보를 사용한다. 각 시,도별 데이터를 glob과 반복문을 이용해 모두 pandas로 로드하였고 concat을 통해 하나의 데이터프레임 df로 합쳤다. 원본 데이터는 상가업소번호부터 지점명, 업종분류코드, 건물관리번호, 우편번호, 동, 층 정보 등 39개의 column을 가진 데이터였다. 중복 데이터 제거, 상호명이 결측치인 데이터 제거 후 사용할 컬럼만 남겼다. cols = ['상호명', '상권업종대분류명', '시도명', '시군구명', '도로명주소', '경도', '위.. 2023. 2. 9.
[DAY 30] EDA - 국가,권역별 전산업,소부장 산업별 수출/수입금액 최초 데이터를 Tidy Data로 만드는 등 전처리 과정을 거치고 EDA하였다. 데이터 시각화는 plotly와 seaborn을 활용하였다. 최초 데이터 확인 데이터를 pandas로 로드하여 변수 raw에 저장하였다. 데이터 출처는 공공데이터포털이다. raw.head(3) raw를 확인해보면 연도와 월 값이 옆으로 쭉 늘어져 있는 형태임을 알 수 있다. 208행 132열의 구조를 가지고 있었다. 또한 결측치를 확인해보자. sns.heatmap(raw.isnull(), cmap='gray_r') seaborn의 heatmap을 사용하여 확인해보면 검은색으로 특정 열에 결측치가 있음을 확인할 수 있다. 데이터 전처리 앞 4개의 컬럼은 분석하기 좋은 형태로 되어있으므로 해당 컬럼들을 기준으로 raw를 melt하.. 2023. 2. 7.
[DAY 29] Tidy Data(깔끔한 데이터), melt, 아파트 분양가 분석 분석하기 좋은 깔끔한 데이터 Tidy Data에 대해 간단히 알아보았다. 그 후 Tidy Data를 생각하며 아파트 분양가 분석을 했다. Tidy Data 강의에선 Tidy Data에 대해 간단히 알아보며 논문을 소개해주셨지만, 해당 논문을 보며 Tidy Data에 대해 조금만 더 알아보려고 한다. Handley Wickham은 Journal of Statistical Software에서 Tidy Data를 소개했다. => Handley Wickham의 논문 논문에서 데이터 분석은 데이터를 정제하고 준비하는 과정이 80%라고 한다. 데이터 클리닝은 작지만 중요한 측면이라고 하며 이를 data tidying이라고 칭한다. 데이터셋이 tidy(깔끔)가 되는지 messy(지저분)가 되는지는 데이터셋의 구조에 .. 2023. 2. 7.
[DAY 28] SQL 데이터 집계하기 - ROLLUP, WINDOW FUNCTION JOIN, 서브쿼리, WITH와 CTE 등에 대한 내용을 복습하고 강의가 시작되었다. ROLLUP, WINDOW FUNCTION 등 데이터 집계 함수에 대해 공부하였다. ROLLUP 그룹별 소계, 총계를 구하기 위해 사용한다 ROLLUP 함수는 n개의 그룹을 지정하면 n+1개 조합이 출력되며, 그룹화 순서가 중요하다 예시 : ROLLUP(A, B, C) 1. A그룹별 B그룹별 C그룹에 대한 결과 2. A그룹별 B그룹에 대한 결과 3. A그룹에 대한 결과 4. 모든 데이터에 대한 결과 # 국가별, 성별 유저 수 select country, gender, count(id) as count_user from `thelook_ecommerce.users` group by rollup(country, gender.. 2023. 2. 3.
반응형