어제에 이어 웹 스크래핑 실습이 계속되었다.
그 과정에서 나온 것에 대해 정리해 본다.
BeautifulSoup
데이터 분석, 수집을 하는 과정에서 사용하지만 데이터 분석 도구나 데이터 수집 도구가 아니다. HTML Parser이다. 파싱이란 문장의 구성이나 구문 분석으로 의미있는 단위를 떼어내는 과정, 쉽게 말해 문자열에서 필요한 데이터를 추출하는 행위를 말한다. 원하는 웹페이지에 접근하여 HTML 데이터를 받아 온 후 그것을 가공하여 원하는 데이터를 사용하는데 그 때 사용하는 것이 BeautifulSoup이다.
쿼리스트링(Query String)
쿼리스트링은 사용자가 웹으로 데이터를 보내는 가장 간단하면서도 많이 쓰이는 방식이다. URL의 뒤에 데이터를 함께 전달한다.
형식은 위와 같이 URL 뒤에 ?을 통해 Query String을 시작하고 파라미터, 값을 쌍으로 이뤄 사용한다. 전달해야할 파라미터와 값이 여러개라면 &을 통해 구분하며 열거하면 된다.
슈도코드(pseudo code, 의사코드)
슈도코드는 알고리즘의 모델을 대략적으로 작성하는 것이다. 실제 프로그래밍 언어처럼 정확한 문법을 따를 필요 없이, 일반적인 언어로 코드를 흉내내서 작성한다.
통상 작성할 프로그램의 로직을 자연어를 통해 작성하고 이를 바탕으로 코딩을 하는 방식으로 활용한다.
pseudo code 자세히 알아보기
이후 20230111 오늘은 네이버 금융 페이지를 스크래핑하여 특정 종목의 일별 시세를 수집하는 실습을 했다.
반응형
'AI SCHOOL > TIL' 카테고리의 다른 글
[DAY 15] SQL 첫 강의 - distinct, as, limit, 집계함수, where, group by (2) | 2023.01.13 |
---|---|
[DAY 14] Week 4 Insight Day (0) | 2023.01.12 |
[DAY 12] API, 로봇 배제 표준, FinanceDataReader 등 (0) | 2023.01.10 |
[DAY 11] pandas 기초 - DataFrame, Series, Indexing 등 (2) | 2023.01.10 |
[DAY 10] getter, setter, name mangling (0) | 2023.01.06 |
댓글