본문 바로가기

AI SCHOOL/TIL101

[DAY 31] 버거지수, 상관계수, plotly와 folium을 이용한 지도 시각화 한 도시의 발전 수준은 (버거킹 개수 + 맥도날드 개수 + KFC 개수) / 롯데리아 개수 값에 비례한다는 말이 사실일까? 실제 각 버거 체인점 개수를 확인하여 분석해봤다. 데이터 준비 공공데이터포털에 공개된 소상공인시장진흥공단_상가(상권)정보를 사용한다. 각 시,도별 데이터를 glob과 반복문을 이용해 모두 pandas로 로드하였고 concat을 통해 하나의 데이터프레임 df로 합쳤다. 원본 데이터는 상가업소번호부터 지점명, 업종분류코드, 건물관리번호, 우편번호, 동, 층 정보 등 39개의 column을 가진 데이터였다. 중복 데이터 제거, 상호명이 결측치인 데이터 제거 후 사용할 컬럼만 남겼다. cols = ['상호명', '상권업종대분류명', '시도명', '시군구명', '도로명주소', '경도', '위.. 2023. 2. 9.
[DAY 30] EDA - 국가,권역별 전산업,소부장 산업별 수출/수입금액 최초 데이터를 Tidy Data로 만드는 등 전처리 과정을 거치고 EDA하였다. 데이터 시각화는 plotly와 seaborn을 활용하였다. 최초 데이터 확인 데이터를 pandas로 로드하여 변수 raw에 저장하였다. 데이터 출처는 공공데이터포털이다. raw.head(3) raw를 확인해보면 연도와 월 값이 옆으로 쭉 늘어져 있는 형태임을 알 수 있다. 208행 132열의 구조를 가지고 있었다. 또한 결측치를 확인해보자. sns.heatmap(raw.isnull(), cmap='gray_r') seaborn의 heatmap을 사용하여 확인해보면 검은색으로 특정 열에 결측치가 있음을 확인할 수 있다. 데이터 전처리 앞 4개의 컬럼은 분석하기 좋은 형태로 되어있으므로 해당 컬럼들을 기준으로 raw를 melt하.. 2023. 2. 7.
[DAY 29] Tidy Data(깔끔한 데이터), melt, 아파트 분양가 분석 분석하기 좋은 깔끔한 데이터 Tidy Data에 대해 간단히 알아보았다. 그 후 Tidy Data를 생각하며 아파트 분양가 분석을 했다. Tidy Data 강의에선 Tidy Data에 대해 간단히 알아보며 논문을 소개해주셨지만, 해당 논문을 보며 Tidy Data에 대해 조금만 더 알아보려고 한다. Handley Wickham은 Journal of Statistical Software에서 Tidy Data를 소개했다. => Handley Wickham의 논문 논문에서 데이터 분석은 데이터를 정제하고 준비하는 과정이 80%라고 한다. 데이터 클리닝은 작지만 중요한 측면이라고 하며 이를 data tidying이라고 칭한다. 데이터셋이 tidy(깔끔)가 되는지 messy(지저분)가 되는지는 데이터셋의 구조에 .. 2023. 2. 7.
[DAY 28] SQL 데이터 집계하기 - ROLLUP, WINDOW FUNCTION JOIN, 서브쿼리, WITH와 CTE 등에 대한 내용을 복습하고 강의가 시작되었다. ROLLUP, WINDOW FUNCTION 등 데이터 집계 함수에 대해 공부하였다. ROLLUP 그룹별 소계, 총계를 구하기 위해 사용한다 ROLLUP 함수는 n개의 그룹을 지정하면 n+1개 조합이 출력되며, 그룹화 순서가 중요하다 예시 : ROLLUP(A, B, C) 1. A그룹별 B그룹별 C그룹에 대한 결과 2. A그룹별 B그룹에 대한 결과 3. A그룹에 대한 결과 4. 모든 데이터에 대한 결과 # 국가별, 성별 유저 수 select country, gender, count(id) as count_user from `thelook_ecommerce.users` group by rollup(country, gender.. 2023. 2. 3.
[DAY 27] Week 7 Insight Day 미니프로젝트2 시작, 수료생 특강 20230202(목) 인사이트 데이 으쌰으쌰팀1과 두번째 프로젝트인 미니프로젝트2를 시작했다. 점심식사 후엔 수료생 특강도 있었다. 오전 첫 으쌰으쌰팀과의 두번째 미니프로젝트를 시작했다. EDA를 할 데이터셋을 확실히 정했고 역할 분담과 전처리를 했다. 이번 미니프로젝트는 강사님이 부담 가지지 말라고 하셨긴 한데 어떻게 될지 모르겠다. 오후 AI스쿨 프로젝트 소개 미니프로젝트는 말 그대로 미니고 메인 프로젝트는 미드프로젝트와 파이널프로젝트, 데이터톤이라고 한다. 주제선정 -> 프로젝트 수행 -> PPT 발표 -> 종합회고 순으로 이루어 질 것이라고 한다. 종합회고에는 셀프/피어 리뷰가 있다고 들어서 기대가 된다. 프로젝트 기대 효과로 1. 커뮤니케이션 스킬 2. 타임라인 관리 3. 개인 역량 발휘와 시너.. 2023. 2. 2.
반응형