본문 바로가기

멋사107

[DAY 34] 통계 강의 시작 - 변수, 확률분포, 확률질량함수, 중심극한정리, 기술통계, 상자수염그림, 모집단과 표본 Special Lecture인 통계분석이 1주일동안 진행될 예정이다. 강의를 집중해서 듣고 데이터분석을 위한 통계 역량을 키워야겠다. 통계를 배우는 이유(활용 예시)에 대한 소개를 시작으로 강의가 진행되었다. 통계로 무엇을 할 수 있는가 전문가 판단 vs 통계적 예측 미네소타대학교 심리학 교수 폴 밀, 1954 "학업성, 정신질환의 예후 등에서 전문가의 판단보다 통계적 예측이 더 정확하다." 이러한 밀의 연구 이후 수십년간 논란이 되었고 136개의 연구를 검토한 결과 통계적 예측이 더 정확했다. - 통계 우위(63개), 동률(65개), 전문가 우위(8개) 전문가의 판단은 내외부적 잡음에 영향을 받는 반면 통계적 모델을 통한 예측은 잡음에 영향을 받지 않는다. 통계적 예측이 충분히 사용되지 않는 이유 전문.. 2023. 2. 13.
[DAY 33] SQL 마지막 날 - 추천도서, 내용 정리, 연습문제 Special Lecture인 SQL이 벌써 7회차로 마지막이 되었다. 전체 내용을 한 번 쭉 복습하고 연습문제를 풀며 마무리했다. 추천도서 SQL 도서를 추천해 달라는 요청을 받으신 강사님의 3가지 추천도서 1. 모두의 SQL 2. SQL로 맛보는 데이터 전처리 분석 3. 데이터 분석을 위한 SQL 레시피 1번은 e-book으로도 볼 수 있다는 장점이 있다. 개발자, DB관리자, 데이터분석가 등 본인의 직무에 따라 사용하게 되는 SQL이 차이가 있을 것이라는 말씀도 덧붙여 주셨다. 전체 내용 및 연습문제 select~from의 기본적 형태부터 where절, group by, having, order by, 함수, join, 조건분기, with, 서브쿼리, 데이터 집계, 윈도우 함수 등 전체 내용을 쭉 .. 2023. 2. 12.
[WEEK 8] 멋쟁이사자처럼 AI 스쿨 8주차 8주차에는 지도 시각화 등 다양한 데이터 시각화를 했다. 이번주의 키워드로 Tidy Data, melt, plotly, 버거지수, seaborn, folium을 선정한다. 학습 내용 요약 - 각 세부 사항은 TIL 작성 분석을 위해 잘 가공된 깔끔한 데이터 Tidy Data에 대한 개념을 배웠다. 그 후 아파트 분양가 분석을 위한 데이터 전처리 과정에서 pandas의 melt를 사용하여 Tidy Data를 만들었다. DAY 29 TIL [DAY 29] Tidy Data(깔끔한 데이터), melt, 아파트 분양가 분석 분석하기 좋은 깔끔한 데이터 Tidy Data에 대해 간단히 알아보았다. 그 후 Tidy Data를 생각하며 아파트 분양가 분석을 했다. Tidy Data 강의에선 Tidy Data에 대해 .. 2023. 2. 9.
[DAY 32] Week 8 Insight Day 미드프로젝트1 공지, 나 사용법 20230207(목) 인사이트 데이 미드프로젝트1과 으쌰으쌰팀2가 공지되었다. 나 사용법 Activity도 했다. 오전 으쌰으쌰팀1과 소회의실에 모여 자습을 했다. 프로젝트에 치였던 지난주와 달리 마음이 가벼웠다. 이제 익숙해진 으쌰으쌰팀1이 이번주가 끝이라니 시간 참 빠르다. 오후 수강생들의 설문 응답 데이터를 12월 데이터부터 지난주에 설문한 데이터까지 보여주셨다. 초반 부분인 파이썬 이론과 데이터 수집에서 어려웠다고 응답한 비율이 가장 컸고 SQL은 어려웠다고 응답한 비율이 가장 낮았다. 쉬웠다고 응답하는 비율은 매주 10% 이하로 나타났다. 나도 항상 보통을 응답했던 것 같다. 일정 공지 Special Lecture인 SQL이 벌써 내일 7회차가 되어 마지막 강의라고 한다. 다음주는 1주간 통계분.. 2023. 2. 9.
[DAY 31] 버거지수, 상관계수, plotly와 folium을 이용한 지도 시각화 한 도시의 발전 수준은 (버거킹 개수 + 맥도날드 개수 + KFC 개수) / 롯데리아 개수 값에 비례한다는 말이 사실일까? 실제 각 버거 체인점 개수를 확인하여 분석해봤다. 데이터 준비 공공데이터포털에 공개된 소상공인시장진흥공단_상가(상권)정보를 사용한다. 각 시,도별 데이터를 glob과 반복문을 이용해 모두 pandas로 로드하였고 concat을 통해 하나의 데이터프레임 df로 합쳤다. 원본 데이터는 상가업소번호부터 지점명, 업종분류코드, 건물관리번호, 우편번호, 동, 층 정보 등 39개의 column을 가진 데이터였다. 중복 데이터 제거, 상호명이 결측치인 데이터 제거 후 사용할 컬럼만 남겼다. cols = ['상호명', '상권업종대분류명', '시도명', '시군구명', '도로명주소', '경도', '위.. 2023. 2. 9.
반응형