본문 바로가기

pandas5

[DAY 26] 시가총액 상위 10종목 EDA - 주가추세, 수익률, pandas, matplotlib KRX 상장 종목 중 시가총액 상위 10개 종목 데이터를 수집하여 분석하고 시각화했다. 데이터 수집에 FinanceDataReader를 활용했다. 데이터 수집 우선 Anaconda Prompt에서 finance-datareader를 설치했다. 그 후 library import import pandas as pd import numpy as np import FinanceDataReader as fdr 네이버 금융 페이지에서 pandas의 read_html로 상위 10개 종목을 가져오기 url = "https://finance.naver.com/sise/entryJongmok.naver?&page=1" df_top10 = pd.read_html(url)[0].dropna() df_top10 하지만 네이버 .. 2023. 2. 2.
[DAY 25] 서울시 코로나19 EDA - crosstab, str.contains와 isin, 데이터 시각화 DAY 24에 이어 서울시 코로나19 확진자 EDA를 했다. 다양한 분석을 하며 pandas에 더 익숙해지고 시각화에 대한 감을 잡은 것 같다. pandas의 crosstab 두 개의 변수에 대한 빈도수, 빈도 비율 구하기 # 연도, 퇴원현황 빈도수 구하기 pd.crosstab(index=df['연도'], columns=df['퇴원현황']) # pd.crosstab 으로 연도, 퇴원현황 두 개의 변수에 대한 빈도 비율 구하기 pd.crosstab(index=df['연도'], columns=df['퇴원현황'], normalize=True) * 100 각각 빈도수와 빈도 비율을 구한다. normalize=True로 전체 value에 대한 비율을 구해준다. 모두 합하면 100%가 된다. 위와 같은 데이터 프레.. 2023. 2. 1.
[DAY 18] BeautifulSoup 태그 찾기 방법 3가지, 매직 커맨드, 시리즈를 list로 변경, map, apply BeautifulSoup로 같은 문서에 같은 텍스트를 찾아도 여러 방식으로 작성할 수 있다는 것을 알게 되었다. 시간을 측정하는 매직 커맨드와 시리즈 다루기, 판다스의 메소드 등을 공부했다. BeautifulSoup 메소드 3가지 만약 어떤 BeautifulSoup 객체 soup에서 class가 sample인 div 태그를 찾는다고 한다면, 그 태그의 텍스트는 아래와 같은 방법으로 추출할 수 있다. 1. soup.select("div.sample")[0].text 2. soup.find('div', {'class':'sample'}.text 3. soup.find_all('div', {'class':'sample'}[0].text 매직 커맨드(Magic Commands) Ipython 환경에서 %기호로 .. 2023. 1. 18.
[웹 스크래핑] 네이버 종목토론실 글 목록 수집해보기 네이버 증권 종목토론실에서 특정 종목을 선택하고 작성된 모든 게시물을 스크래핑하여 excel 파일로 저장한 후 확인해본다. 예시로 삼성전자를 보면 현재 80000페이지가 훌쩍 넘기 때문에 스크래핑을 진행할 종목은 가장 최근에 상장한 바이오노트(377740)로 선정한다. 먼저 필요한 라이브러리를 import한다. import pandas as pd import requests import time from tqdm import trange from bs4 import BeautifulSoup as bs 데이터 프레임을 만들기 위해 pandas, URL로 요청을 보내기 위해 requests, 서버에 시간 간격을 두고 요청하기 위해 time, 진행 상황을 확인할 수 있는 trange, 종목토론실 마지막 페이지.. 2023. 1. 15.
[DAY 11] pandas 기초 - DataFrame, Series, Indexing 등 오늘은 pandas 기초에 대해 공부했다. 키워드 : pandas, DataFrame, Series, rows & columns, Indexing, 요약통계, 파일 저장 & 로드 pandas Python 라이브러리로, 데이터 조작 및 분석을 할 때 사용한다. 데이터 구조를 표현하는 객체인 DataFrame과 Series라는 클래스 객체를 이해해야 pandas를 다루는 데 문제 없을 것이다. DataFrame과 Series의 이해 DataFrame은 2차원 리스트 구조이며 수학적으로는 행렬로 표현할 수 있다. - 2차원 리스트 구조 예시 : [[1, 2, 3], [4, 5, 6]] Series는 1차원 리스트 구조이며 수학적으로는 벡터로 표현할 수 있다. - 1차원 리스트 구조 예시 : [1, 2, 3] .. 2023. 1. 10.