본문 바로가기

BeautifulSoup4

[웹 스크래핑] 역대 대통령 연설기록 목록과 그 내용까지 행정안전부 대통령 기록관 사이트의 역대 대통령 연설기록을 스크래핑해본다. 페이지를 넘기면 나오는 목록 뿐 아니라 제목을 눌렀을 때 나오는 내용까지 수집한다. 필요한 라이브러리 import import requests import pandas as pd from bs4 import BeautifulSoup as bs URL로 HTTP 요청을 보내기 위해 requests, 데이터프레임을 만들기 위해 pandas, 내용으로 들어가기 위한 링크를 찾기 위해 BeautifulSoup URL 작성 url = "https://www.pa.go.kr/research/contents/speech/index.jsp" params = f"?spMode=&artid=&catid=&pageIndex={page_no}&searc.. 2023. 1. 16.
[웹 스크래핑] 네이버 종목토론실 글 목록 수집해보기 네이버 증권 종목토론실에서 특정 종목을 선택하고 작성된 모든 게시물을 스크래핑하여 excel 파일로 저장한 후 확인해본다. 예시로 삼성전자를 보면 현재 80000페이지가 훌쩍 넘기 때문에 스크래핑을 진행할 종목은 가장 최근에 상장한 바이오노트(377740)로 선정한다. 먼저 필요한 라이브러리를 import한다. import pandas as pd import requests import time from tqdm import trange from bs4 import BeautifulSoup as bs 데이터 프레임을 만들기 위해 pandas, URL로 요청을 보내기 위해 requests, 서버에 시간 간격을 두고 요청하기 위해 time, 진행 상황을 확인할 수 있는 trange, 종목토론실 마지막 페이지.. 2023. 1. 15.
[DAY 13] BeautifulSoup, 쿼리스트링, 슈도코드 등 어제에 이어 웹 스크래핑 실습이 계속되었다. 그 과정에서 나온 것에 대해 정리해 본다. BeautifulSoup 데이터 분석, 수집을 하는 과정에서 사용하지만 데이터 분석 도구나 데이터 수집 도구가 아니다. HTML Parser이다. 파싱이란 문장의 구성이나 구문 분석으로 의미있는 단위를 떼어내는 과정, 쉽게 말해 문자열에서 필요한 데이터를 추출하는 행위를 말한다. 원하는 웹페이지에 접근하여 HTML 데이터를 받아 온 후 그것을 가공하여 원하는 데이터를 사용하는데 그 때 사용하는 것이 BeautifulSoup이다. 쿼리스트링(Query String) 쿼리스트링은 사용자가 웹으로 데이터를 보내는 가장 간단하면서도 많이 쓰이는 방식이다. URL의 뒤에 데이터를 함께 전달한다. 형식은 위와 같이 URL 뒤에 .. 2023. 1. 11.
[DAY 4] 크롤링, BeautifulSoup, API 활용 크롤링과 크롤러 crawling : 크롤러를 사용하여 웹페이지의 데이터를 추출해 내는 행위 crawler : 웹페이지의 데이터를 모아주는 소프트웨어 함수와 모듈 함수 : 반복되는 작업을 간결하게 해결 모듈 : 자주 쓰이는 함수들을 모아놓은 파일 Beautiful Soup BeautifulSoup는 사실 모듈명이 아니다. 기능명이다 from bs4 import BeautifulSoup 이 형태로 활용 response = requests.get(url) print(response.text)------1 print(BeautifulSoup(response.text, 'html.parser'))-----2 => 1과 2의 결과가 눈으로 보기엔 같은데 서로 다른 결과이다? - 둘 다 type을 출력해 본 결과 1.. 2023. 1. 4.
반응형