[STAT-WIKI] 확률분포 관련 개념을 정리합니다.
정규분포와 중심극한정리
정규분포(normal distribution) / 가우스 정규분포(Gaussian normal distribution)
- 자연 현상에서 나타나는 숫자를 확률 모형으로 모형화
- 모수 : 평균 μ와 분산 σ^2
표준정규분포(standard normal distribution)
- μ=0, σ^2=1 정규분포
로그정규분포(log-normal distribution)
- 데이터에 로그를 취한 값 or 변화율(수익률)이 정규분포가 되는 분포
- 로그정규분포를 띄는 데이터는 항상 양수 ⇨ 로그 변환하여 활용하는 것이 일반적
중심극한정리(Central Limit Theorem)
- 여러 확률변수의 합이 정규분포와 비슷한 분포를 이루는 현상
- (실제 발생하는 현상 중 많은 것들이 정규분포로 모형화가 가능한 이유)
정규분포에서 파생된 분포 : 스튜던트 t분포, 카이제곱분포, F분포
스튜던트 t분포(student-t distribution) / t분포
모수 : 평균 μ , 분산 σ^2 , 자유도 ν (2 이상의 자연수)
E[X]=μ, Var[X]= ν / λ(ν−2)
t 통계량
- 정규분포를 따르는 확률변수 X 의 N개의 표본 x1,⋯,xN합(또는 평균)은 표본 분산으로 정규화한 t통계량은 자유도가 N−1인 스튜던트 t분포를 따른다 (정규분포의 표본을 표준편차σ 로 나눈 z통계량은 정규분포를 따른다. 표준편차σ 를 알지 못할때 ? ⇨ 표본에서 측정한 표본표준편차s로 정규화. )
카이제곱(chi-squared)분포
- 정규분포를 따르는 확률변수 X 의 N개의 표본 x1,⋯,xN 제곱을 하여 더한 값 카이제곱(chi-squared)분포를 따른다
- 모수 : 자유도 ν
분포
- 카이제곱분포를 따르는 독립적인 두 개의 확률 변수의 표본을 각각 N1, N2로 나눈뒤 비율을 구하면 F(x;N1,N2) 분포를 따른다
- 스튜던트 t분포의 표본값을 제곱한 값은 F분포를 따른다.
데이터 분석에서 활용
정규분포의 통계량 분포(statistics distribution)의 일종인 스튜던트 t분포, 카이제곱분포, F분포는 선형회귀분석에서 각각 다음 값에 대한 확률모형으로 사용된다.
- 스튜던트 t분포: 추정된 가중치에 대한 확률 분포
- 카이제곱분포: 오차 제곱합에 대한 확률 분포
- F분포: 비교 대상이 되는 선형모형의 오차 제곱합에 대한 비율의 확률 분포
Source : 김도형의 데이터 사이언스 스쿨 수학 편
'Statistics > Probability' 카테고리의 다른 글
[확률론] 확률변수와 확률분포함수 (0) | 2021.11.01 |
---|---|
[확률론] 확률의 개념과 성질 (0) | 2021.11.01 |
[확률론] 베이즈 정리와 베이즈 정리의 확장 (0) | 2021.07.28 |