본문 바로가기

AI School111

[WEEK 7] 멋쟁이사자처럼 AI 스쿨 7주차 멋사 AI SCHOOL 8기의 30% 지점을 지나고 있다. 이번주에는 EDA를 했다. 파이썬, 판다스, 데이터 수집을 지나서 이를 활용한 데이터 분석의 시작인 것 같다. 그리고 pandas에 대한 실력과 자신감이 많이 오른 느낌이다. 이번주의 키워드로 pandas, FinanceDataReader, 데이터 시각화(matplotlib, plotly)를 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL로 작성 실제 오픈 데이터인 서울시 코로나 확진자 데이터를 사용하여 인덱스 다루기 파생변수 만들기 등 DataFrame을 다루는 실력을 많이 키운 것 같다. 처음으로 시계열 데이터를 다루었고 시각화도 경험해봤다. DAY 24 TIL [DAY 24] 서울시 코로나19 발생동향 분석 - index 다루기, 데이.. 2023. 2. 2.
[DAY 27] Week 7 Insight Day 미니프로젝트2 시작, 수료생 특강 20230202(목) 인사이트 데이 으쌰으쌰팀1과 두번째 프로젝트인 미니프로젝트2를 시작했다. 점심식사 후엔 수료생 특강도 있었다. 오전 첫 으쌰으쌰팀과의 두번째 미니프로젝트를 시작했다. EDA를 할 데이터셋을 확실히 정했고 역할 분담과 전처리를 했다. 이번 미니프로젝트는 강사님이 부담 가지지 말라고 하셨긴 한데 어떻게 될지 모르겠다. 오후 AI스쿨 프로젝트 소개 미니프로젝트는 말 그대로 미니고 메인 프로젝트는 미드프로젝트와 파이널프로젝트, 데이터톤이라고 한다. 주제선정 -> 프로젝트 수행 -> PPT 발표 -> 종합회고 순으로 이루어 질 것이라고 한다. 종합회고에는 셀프/피어 리뷰가 있다고 들어서 기대가 된다. 프로젝트 기대 효과로 1. 커뮤니케이션 스킬 2. 타임라인 관리 3. 개인 역량 발휘와 시너.. 2023. 2. 2.
[DAY 26] 시가총액 상위 10종목 EDA - 주가추세, 수익률, pandas, matplotlib KRX 상장 종목 중 시가총액 상위 10개 종목 데이터를 수집하여 분석하고 시각화했다. 데이터 수집에 FinanceDataReader를 활용했다. 데이터 수집 우선 Anaconda Prompt에서 finance-datareader를 설치했다. 그 후 library import import pandas as pd import numpy as np import FinanceDataReader as fdr 네이버 금융 페이지에서 pandas의 read_html로 상위 10개 종목을 가져오기 url = "https://finance.naver.com/sise/entryJongmok.naver?&page=1" df_top10 = pd.read_html(url)[0].dropna() df_top10 하지만 네이버 .. 2023. 2. 2.
[DAY 25] 서울시 코로나19 EDA - crosstab, str.contains와 isin, 데이터 시각화 DAY 24에 이어 서울시 코로나19 확진자 EDA를 했다. 다양한 분석을 하며 pandas에 더 익숙해지고 시각화에 대한 감을 잡은 것 같다. pandas의 crosstab 두 개의 변수에 대한 빈도수, 빈도 비율 구하기 # 연도, 퇴원현황 빈도수 구하기 pd.crosstab(index=df['연도'], columns=df['퇴원현황']) # pd.crosstab 으로 연도, 퇴원현황 두 개의 변수에 대한 빈도 비율 구하기 pd.crosstab(index=df['연도'], columns=df['퇴원현황'], normalize=True) * 100 각각 빈도수와 빈도 비율을 구한다. normalize=True로 전체 value에 대한 비율을 구해준다. 모두 합하면 100%가 된다. 위와 같은 데이터 프레.. 2023. 2. 1.
[DAY 24] 서울시 코로나19 발생동향 분석 - index 다루기, 데이터 요약, 기술통계, 파생변수, 시각화 EDA를 시작했다. 서울시 코로나 확진자 데이터를 pandas DataFrame으로 다루어봤다. 실제 데이터를 분석하고 시각화해보는 시간을 가졌다. glob 파일 목록을 간편하게 확인할 수 있는 glob 사용법을 배웠다. 코드가 작성된 파일의 현재 폴더의 data 폴더 아래에 seoul로 시작되는 폴더 아래에 seoul로 시작되는 csv 파일을 찾았다. 이처럼 glob은 파일명을 정확히 작성하지 않아도 찾을 수 있어서 유용하다. 데이터프레임 만들기 확인된 파일 중 seoul-covid19-2021-12-18.csv와 seoul-covid19-2021-12-26.csv를 pandas의 read_csv를 이용하여 각각 df_01과 df_02에 데이터프레임으로 저장하였다. df_01은 18646 rows, d.. 2023. 1. 31.
반응형