본문 바로가기

AI SCHOOL/TIL101

[DAY 16] 코랩, 개발자도구, 파이썬에 대한 팁 오늘은 웹 스크래핑도 진행했지만 강의 중에 여러 팁이 있었다. 코랩, 개발자도구, 파이썬을 사용할 때 알아야 할(알면 좋은) 팁들을 남겨 본다. Google Colab - 코드 실행 결과가 출력되어 있으면 복잡해지고 문제를 찾기 어렵다. - 상단의 수정 -> 모든 출력 지우기를 통해 한 번에 지울 수 있다. - 셀 순서를 유의해서 실행해야 한다. 변수가 정의되지 않은 상태거나 의도치 않는 값이 저장된 상태로 실행될 수 있다. - module import는 항상 우선적으로 신경써야한다. 개발자도구 - 검사 -> Network에서 주로 Fetch/XHR, JS, Doc을 사용할 것이다. - 화면의 원하는 부분에서 우클릭 -> 검사를 통해 코드를 확인해보자. GET/POST - 일반적으론 GET 방식으로 요청.. 2023. 1. 16.
[DAY 15] SQL 첫 강의 - distinct, as, limit, 집계함수, where, group by Special Lecture인 SQL 첫 강의였다. 수업 진행 방법 안내 후 SQL의 역할, RDBMS, SQL 문법 종류에 대해 강의 후 실습 환경을 구성했다. 실습 환경 : Google BigQuery - 머신러닝, 지리정보 분석, 비즈니스 인텔리전스와 같은 기본 제공 기능으로 데이터를 관리하고 분석할 수 있게 해주는 완전 관리형 엔터프라이즈 데이터 웨어하우스 빅쿼리에 접속해서 새 프로젝트를 생성하고 프로젝트에 데이터셋을 추가해서 실습했다. 데이터셋을 추가했더니 실습에 사용할 수 있는 여러 테이블이 생겼다. 실제 데이터를 조회한 양만큼 과금이 되며 일정 수준까지는 무료인 시스템인데 강사님이 실습 과정에서 금액이 발생할 일은 없을 거라고 하셨다. 빅쿼리를 처음 사용해 봤는데, 지금까지 사용해봤던 Ora.. 2023. 1. 13.
[DAY 14] Week 4 Insight Day 20230112(목) 이번주 인사이트데이였다. 인사이트데이는 주마다 있을 수도, 없을 수도 있다. 강의는 듣지 않고 복습 겸 쉬어가는 시간인 것 같다. 오전시간 재잘재잘팀별로 월~수에 들은 강의에 대해 노션에 정리하는 시간을 가졌다. 우리 팀은 어떤 내용을 배웠는지 쭉 작성하고 키워드를 선정했으며 어떤 점이 어려웠는지와 그것을 더 공부하기 위한 링크도 달면서 정리하였다. HTML, requests, pandas 그 외 다른 많은 내용에 대해 이야기가 나왔다. 오후시간 오후에는 insight time이라고 해서 이 주의 칭찬 수강생, 우수 사례를 발표했으며 한 주에 대한 설문을 진행했다. 본인이 생각하는 난이도, 학습 습관, 학습 소화, 만족도 등에 대한 내용이었다. 그 후 훈련장려금에 대한 안내를 받았다.. 2023. 1. 12.
[DAY 13] BeautifulSoup, 쿼리스트링, 슈도코드 등 어제에 이어 웹 스크래핑 실습이 계속되었다. 그 과정에서 나온 것에 대해 정리해 본다. BeautifulSoup 데이터 분석, 수집을 하는 과정에서 사용하지만 데이터 분석 도구나 데이터 수집 도구가 아니다. HTML Parser이다. 파싱이란 문장의 구성이나 구문 분석으로 의미있는 단위를 떼어내는 과정, 쉽게 말해 문자열에서 필요한 데이터를 추출하는 행위를 말한다. 원하는 웹페이지에 접근하여 HTML 데이터를 받아 온 후 그것을 가공하여 원하는 데이터를 사용하는데 그 때 사용하는 것이 BeautifulSoup이다. 쿼리스트링(Query String) 쿼리스트링은 사용자가 웹으로 데이터를 보내는 가장 간단하면서도 많이 쓰이는 방식이다. URL의 뒤에 데이터를 함께 전달한다. 형식은 위와 같이 URL 뒤에 .. 2023. 1. 11.
[DAY 12] API, 로봇 배제 표준, FinanceDataReader 등 API를 제공하는 이유, 로봇 배제표준, FinanceDataReader에 대해 공부하고 웹 스크래핑 실습을 했다. 키워드 : API, robots.txt, 라이브러리, FinanceDataReader, 웹 스크래핑 API를 제공하는 이유 - 허가된 계정에게만 데이터를 제공하기 위해 - 누가 사용했는지 알기 위해 - 유료로 데이터를 판매하는 사이트는 용량 등에 따라 과금을 위해 - 부동산 실거래가 등 실시간 제공 데이터의 경우 - 안정성을 위해 : 특정 사이트에 무리하게 네트워크 요청을 보내면 서버에 무리가 간다. - API용 서버를 따로 두게 되면 요청이 몰릴 경우에도 운영하고 있는 서비스의 서버에 무리를 주지 않는다. 로봇 배제 표준 웹사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 웹크롤링 .. 2023. 1. 10.
반응형