본문 바로가기

통계5

[DAY 38] 통계 마지막 날 - 모형 선택, overfitting, 교차 검증, 단계적 회귀분석, 다중공선성, 잔차분석, 상호작용 벌써 Special Lecture 통계의 마지막 날이 됐다. 통계는 배울수록 어려운 것도 많지만 재미있는 것도 많은 것 같다. 모형 선택 과대적합(overfitting) - 최소제곱법은 잔차분산이 가장 작은 계수를 추정 - 주어진 표본에 가장 맞는 계수를 찾게 된다 - 표집 오차가 존재하기 때문에, 주어진 표본에 지나치게 맞는데 계수를 추정하면 모집단의 계수와 다를 수 있다 독립변수의 개수와 과적합 - 최소제곱법은 잔차분산이 작아지는 방향으로 계수를 추정 - 종속변수와 아무 관련이 없는 독립변수를 추가하더라도 잔차분산이 커지는 경우는 없다 - 모집단에서는 아무 관련이 없어도 표본에서는 약간의 관계라도 있을 수 있으므로 잔차분산은 작아지게 된다 - 독립변수가 많으면 많을 수록 잔차분산은 무조건 작아진다(R.. 2023. 2. 17.
[DAY 37] 상관 분석, 상관 계수, 상관과 인과, 심슨의 역설, 회귀 분석, 다중 회귀 분석 집단 비교에 대한 개념을 체크하는 문제 풀이를 먼저 진행했다. 각 검정 방법이 어떤 상황에 사용하는지에 대해 익혔다. 그 후 상관 분석, 회귀 분석 등에 대해 학습했다. 제3의 변인, 상관과 인과, 심슨의 역설 관련 부분이 특히 흥미로웠다. 상관 분석 상관 계수(correlation coefficient) - 두 변수의 연관성을 -1 ~ +1 범위의 수치로 나타낸 것 - 두 변수의 연관성을 파악하기 위해 사용 - 어휘력과 독해력의 관계 - 주가와 금 가격의 관계 - 엔진 성능과 고객만족도의 관계 상관계수의 해석 부호 - 플러스(+) : 두 변수가 같은 방향으로 변화(하나가 증가하면 다른 하나도 증가) - 마이너스(-) : 두 변수가 반대 방향으로 변화(하나가 증가하면 다른 하나는 감소) 크기 - 0 : .. 2023. 2. 17.
[DAY 36] 효과 크기, 대응표본 t-검정, 분산 분석, 카이제곱 검정, 맥니마 검정 신뢰구간, 귀무가설, 유의수준, p-value 등 통계적 가설 검정에 대한 문제를 풀었다. 이후 집단 비교에 대해 학습하며 효과 크기, 여러 검정 방법을 익혔다. 검정력(power) 유의수준(α) : 귀무가설이 참일 때 기각하는 1종 오류의 확률 β : 귀무가설이 거짓일 때, 기각하지 못하는 2종 오류의 확률 검정력(1-β) : 귀무가설이 거짓일 때, 이를 올바르게 기각할 확률 - 보통 검정력은 0.8 이상을 요구 - 표본의 크기가 크면 증가 - 분석 결과에 나오는 검정력은 모수가 통계량과 같다는 가정 아래 계산된다. 맨-휘트니 U 검정(Mann-Whitney U test) 독립표본 t 검정에 대응하는 비모수 검정 방법 귀무가설 : 두 집단의 모집단은 같다. 윌콕슨 순위합 검정(Wilcoxon rank-.. 2023. 2. 15.
[DAY 35] 표집(sampling), 추정, 통계적 가설 검정, A/B 테스트 어제 배운 모집단과 표본에 대한 개념 체크 문제를 간단히 풀고 강의가 시작됐다. 통계 이론을 배우고 일부는 Python의 pingouin 라이브러리를 활용해서 실습을 했다. 표집(sampling) 모집단에서 표본을 추출하는 절차. 표본추출이라고도 한다. 무작위 표집(random sampling) 일정한 확률에 따라 표본을 선택 - 무선표집, 확률표집이라고도 한다. 단순 무작위 표집(simple random sampling) 모든 사례를 동일 확률로 추출 - 계통 표집 - 층화 표집 - 집락 표집 계통 표집(systematic sampling) - 첫 번째 요소는 무작위로 선정한 후 목록의 매 번 k번째 요소를 표본으로 선정 - 요소들의 목록이 추출되기 전에 무작위로 되어 있다면 단순 무작위 표집과 거의 .. 2023. 2. 14.
[DAY 34] 통계 강의 시작 - 변수, 확률분포, 확률질량함수, 중심극한정리, 기술통계, 상자수염그림, 모집단과 표본 Special Lecture인 통계분석이 1주일동안 진행될 예정이다. 강의를 집중해서 듣고 데이터분석을 위한 통계 역량을 키워야겠다. 통계를 배우는 이유(활용 예시)에 대한 소개를 시작으로 강의가 진행되었다. 통계로 무엇을 할 수 있는가 전문가 판단 vs 통계적 예측 미네소타대학교 심리학 교수 폴 밀, 1954 "학업성, 정신질환의 예후 등에서 전문가의 판단보다 통계적 예측이 더 정확하다." 이러한 밀의 연구 이후 수십년간 논란이 되었고 136개의 연구를 검토한 결과 통계적 예측이 더 정확했다. - 통계 우위(63개), 동률(65개), 전문가 우위(8개) 전문가의 판단은 내외부적 잡음에 영향을 받는 반면 통계적 모델을 통한 예측은 잡음에 영향을 받지 않는다. 통계적 예측이 충분히 사용되지 않는 이유 전문.. 2023. 2. 13.