[확률론] 확률분포, 정규분포와 중심극한정리, 정규분포에서 파생된 분포 (스튜던트t통계량, 카이제곱분포, F분포)

[STAT-WIKI] 확률분포 관련 개념을 정리합니다.

정규분포와 중심극한정리

정규분포(normal distribution) / 가우스 정규분포(Gaussian normal distribution)

  • 자연 현상에서 나타나는 숫자를 확률 모형으로 모형화
  • 모수 : 평균 μ와 분산 σ^2

표준정규분포(standard normal distribution)

  • μ=0, σ^2=1 정규분포

로그정규분포(log-normal distribution)

  • 데이터에 로그를 취한 값 or 변화율(수익률)이 정규분포가 되는 분포
  • 로그정규분포를 띄는 데이터는 항상 양수 ⇨ 로그 변환하여 활용하는 것이 일반적

중심극한정리(Central Limit Theorem)

  • 여러 확률변수의 합이 정규분포와 비슷한 분포를 이루는 현상
  • (실제 발생하는 현상 중 많은 것들이 정규분포로 모형화가 가능한 이유)


정규분포에서 파생된 분포 : 스튜던트 t분포, 카이제곱분포, F분포

스튜던트 t분포(student-t distribution) / t분포

  • 모수 : 평균 μ , 분산 σ^2 , 자유도 ν (2 이상의 자연수)

  • E[X]=μ, Var[X]= ν / λ(ν−2)

t 통계량

  • 정규분포를 따르는 확률변수 X 의 N개의 표본 x1,⋯,xN합(또는 평균)은 표본 분산으로 정규화한 t통계량은 자유도가 N−1인 스튜던트 t분포를 따른다 (정규분포의 표본을 표준편차σ 로 나눈 z통계량은 정규분포를 따른다. 표준편차σ 를 알지 못할때 ? ⇨ 표본에서 측정한 표본표준편차s로 정규화. )

카이제곱(chi-squared)분포

  • 정규분포를 따르는 확률변수 X 의 N개의 표본 x1,⋯,xN 제곱을 하여 더한 값 카이제곱(chi-squared)분포를 따른다
  • 모수 : 자유도 ν

분포

  • 카이제곱분포를 따르는 독립적인 두 개의 확률 변수의 표본을 각각 N1, N2로 나눈뒤 비율을 구하면 F(x;N1,N2) 분포를 따른다
  • 스튜던트 t분포의 표본값을 제곱한 값은 F분포를 따른다.


데이터 분석에서 활용

정규분포의 통계량 분포(statistics distribution)의 일종인 스튜던트 t분포, 카이제곱분포, F분포는 선형회귀분석에서 각각 다음 값에 대한 확률모형으로 사용된다.

  • 스튜던트 t분포: 추정된 가중치에 대한 확률 분포
  • 카이제곱분포: 오차 제곱합에 대한 확률 분포
  • F분포: 비교 대상이 되는 선형모형의 오차 제곱합에 대한 비율의 확률 분포

Source : 김도형의 데이터 사이언스 스쿨 수학 편