본문 바로가기

전체 글135

[DAY 29] Tidy Data(깔끔한 데이터), melt, 아파트 분양가 분석 분석하기 좋은 깔끔한 데이터 Tidy Data에 대해 간단히 알아보았다. 그 후 Tidy Data를 생각하며 아파트 분양가 분석을 했다. Tidy Data 강의에선 Tidy Data에 대해 간단히 알아보며 논문을 소개해주셨지만, 해당 논문을 보며 Tidy Data에 대해 조금만 더 알아보려고 한다. Handley Wickham은 Journal of Statistical Software에서 Tidy Data를 소개했다. => Handley Wickham의 논문 논문에서 데이터 분석은 데이터를 정제하고 준비하는 과정이 80%라고 한다. 데이터 클리닝은 작지만 중요한 측면이라고 하며 이를 data tidying이라고 칭한다. 데이터셋이 tidy(깔끔)가 되는지 messy(지저분)가 되는지는 데이터셋의 구조에 .. 2023. 2. 7.
전국 신규 아파트 분양가격 동향 분석, seaborn을 이용한 시각화 전혀 다른 형태의 두 데이터를 전처리하고 하나의 데이터프레임으로 병합한다. 병합된 데이터프레임을 다루어 데이터를 요약, 분석하고 다양한 방법으로 시각화한다. 라이브러리 임포트 데이터분석과 시각화에 사용될 라이브러리를 임포트한다. 그래프에서 정상적인 한글 표현을 위해 koreanize-matplotlib을 사용한다. import koreanize_matplotlib import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt 데이터 로드 2013~2015 전국 지역별 평균 분양가격 데이터를 df_first에, 2015~2021 전국 지역별 평균 분양가격 데이터를 df_last 변수에 로드한다. 데이터는.. 2023. 2. 6.
[Jupyter Notebook] 화면 넓게 사용하는 방법 (셀 너비 키우는 방법) 본 글에서는 주피터 노트북의 좌우 여백을 셀 폭을 늘려서 개선하는 방법을 소개한다. 최근 데이터분석과 시각화를 하면서 데이터프레임과 그래프를 많이 보는데 셀이 좁아서 아쉽게 보이는 경우가 많다. Jupyter Notebook 기본 설정 설정을 바꾸지 않았다면 기본 설정이 이렇게 셀 양 옆으로 여백이 크게 남도록 되어 있기 때문에, 모니터를 큰 것을 쓰더라도 개선되지 않는다. 그래프가 너무 작게 보이거나 데이터프레임이 잘려 보이는 등의 문제점이 있다. 설정 변경 방법 아래 코드를 주피터 노트북 셀에 붙여넣고 실행하면 해결된다. from IPython.display import display, HTML display(HTML("")) 그대로 실행하면 아래 사진처럼 여백이 없어진다. 코드의 100% 부분 숫자.. 2023. 2. 3.
[DAY 28] SQL 데이터 집계하기 - ROLLUP, WINDOW FUNCTION JOIN, 서브쿼리, WITH와 CTE 등에 대한 내용을 복습하고 강의가 시작되었다. ROLLUP, WINDOW FUNCTION 등 데이터 집계 함수에 대해 공부하였다. ROLLUP 그룹별 소계, 총계를 구하기 위해 사용한다 ROLLUP 함수는 n개의 그룹을 지정하면 n+1개 조합이 출력되며, 그룹화 순서가 중요하다 예시 : ROLLUP(A, B, C) 1. A그룹별 B그룹별 C그룹에 대한 결과 2. A그룹별 B그룹에 대한 결과 3. A그룹에 대한 결과 4. 모든 데이터에 대한 결과 # 국가별, 성별 유저 수 select country, gender, count(id) as count_user from `thelook_ecommerce.users` group by rollup(country, gender.. 2023. 2. 3.
[WEEK 7] 멋쟁이사자처럼 AI 스쿨 7주차 멋사 AI SCHOOL 8기의 30% 지점을 지나고 있다. 이번주에는 EDA를 했다. 파이썬, 판다스, 데이터 수집을 지나서 이를 활용한 데이터 분석의 시작인 것 같다. 그리고 pandas에 대한 실력과 자신감이 많이 오른 느낌이다. 이번주의 키워드로 pandas, FinanceDataReader, 데이터 시각화(matplotlib, plotly)를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL로 작성 실제 오픈 데이터인 서울시 코로나 확진자 데이터를 사용하여 인덱스 다루기 파생변수 만들기 등 DataFrame을 다루는 실력을 많이 키운 것 같다. 처음으로 시계열 데이터를 다루었고 시각화도 경험해봤다. DAY 24 TIL [DAY 24] 서울시 코로나19 발생동향 분석 - index 다루기, 데이.. 2023. 2. 2.
반응형