Processing math: 100%

[확률론] 확률변수와 확률분포함수

[STAT-WIKI] 머신러닝을 위한 확률론 - 이산/연속확률변수와 확률분포함수의 특징에 대해 정리합니다.

확률변수/확률분포/확률분포함수

확률변수의 개념

X:SR : 확률변수Xrandom experiment확률실험의 sample space표본공간 S가 정의역이고 실수가 공역인 측정함수이다.

확률변수 X를 주사위 눈금이라고 가정하면, x1=1, x2=2, x3=3, ...이다. 이 때, 확률은 P(x1=1)=16 , P(x2=2)16, ...로 나타낼 수 있다. 즉, 데이터 분석에서 확률변수 = 데이터의 값이라고도 볼 수 있다.

확률변수의 종류 : 이산/연속

확률변수XSupport or Range of a random variable 정의역을 X(S),RX로 표기한다. X(S),RX 정의역 속성에 따라, 이산확률변수와 연속확률변수로 분류할 수 있다.

  • Discrete Random variable - Countable 이산형 확률변수
    • 확률변수의 정의역X(S)유한하고 셀 수 있는 경우 , 확률변수X는 이산확률변수이다.
    • e.g 2개 주사위 눈금 합, 일주일간 교통사고 건수 등
  • Continuous Random variable - Uncountable 연속형 확률변수
    • 확률 변수의 정의역X(S)실수 구간의 모든 원소들을 포함하는 경우, 확률변수X는 연속확률변수이다.
    • e.g 특정 도시의 기업 종사자 연봉, 월 강수량 등

확률분포

확률분포는 확률변수와 그에 대응하는 확률과의 관계이다. 즉, 확률분포는 어떤 사건에 어느 정도의 확률이 할당되었는지에 대한 정보를 보여준다.

확률분포함수

확률분포함수는 확률변수의 값이 정의역, 각 값에 대응하는 확률값을 공역으로 하는 함수이다.

  • 확률분포함수의 종류
    • 확률질량함수 PMF,  pX(x) : 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수
    • 확률밀도함수 PDF,  fX(x)
    • 누적분포함수 Cumulative distribution function (CDF) : 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수
  • 확률분포함수 그래프

확률변수(이산/연속)에 따른 확률 분포 함수를 정리해보자. 👇

1. 이산확률변수

확률질량함수 PMF

Probability mass function (PMF) 확률질량함수는 이산확률변수X가 실수x와 일치할 확률을 연관시킨다. 확률을 가능성의 크기/질량으로 간주하면, X값에 따른 확률(질량)을 나타낼 수 있으므로 확률질량함수라고 부른다.

이산확률변수 X with RX=x1,x2,x3,...의 확률질량함수

PX(xk)=P(X=xk), for k=1,2,3,...,

PX(x)={P(X=x)if x is in RX0otherwise

  • 확률질량함수의 속성
    • 0PX(x)1 for all xR : 확률질량함수는 모든 실수x에 대해 0과 1사이의 값을 가진다.
    • xRXPX(x)=1
    • for any set ARX,P(XA)=xAPX(x)
  • 확률질량함수의 그래프

    이산확률변수 X에 대응하는 확률 Px(X=x) 차트의 높이(길이)이다.

누적분포함수 CDF

이산확률변수 X with RX=x1,x2,x3,...의 누적분포함수

F(x)=P(Xx)=xixp(xi),where xiR
FX(x)=xkxPX(xk)

  • 이산확률변수의 누적분포함수 속성

    • limxF(x)=0
    • limx+F(x)=1
    • Fnondecreasing 감소하지 않는 형태 (입력이 크면 누적분포함수값은 같거나 커진다.)
    • Fright-continuous 우연속 (불연속함수)
  • 누적분포함수의 그래프

    • FX(xk)FX(xkϵ)=PX(xk), For ϵ>0 small enough.
      CDF jumps at each xk : 이산확률변수의 누적분포함수는 xk마다 점프한다. 이는 불연속이며, P(X=x)>0 가 성립함을 의미한다.
    • For all ab, P(a<Xb)=FX(b)FX(a)
    • FX(b)=FX(a)+P(a<Xb)
    • P(X<x)=P(Xx)P(X=x)=FX(x)PX(x)
      이산확률변수의 경우, 부등식 기호 , <차이가 존재하기 때문에 주의해야한다.

2. 연속확률변수

이산확률변수와 가장 큰 차이점은 연속확률변수의 누적분포함수는 연속함수라는 (점프가 존재하지 않는) 점이다. no jumps 점프가 없다는 것은 모든 x에 대해 P(X=x)=0가 성립함을 의미한다.

확률밀도함수와 누적분포함수

이산확률변수의 경우 확률질량함수, 누적분포함수 모두 쉽게 정의되지만, 연속확률변수의 경우 누적분포함수는 잘 정의되어있지만, 확률밀도함수는 그렇지 않다. 연속확률변수가 모든 실수 x에 대해서 P(X=x)=0이기 때문이다. 대신에 확률밀도함수는 이름처럼 물리학의 density 밀도의 개념을 활용해 정의해볼 수 있다.

확률밀도함수 도출과정

  1. 연속확률변수의 CDF를 다음과 같이 나타낼 수 있다.
    F(x)=xf(t)dt
  2. 연속확률변수의 CDF는 연속이기때문에 미분가능하고, 누적분포함수를 미분하면 PDF를 얻을 수 있다.
    f(x)=dF(x)dx
    또한 CDF가 non-decreasing이므로
    x : CDF1 , x : CDF0

이 과정을 밀도공식을 적용해 정리해보자.

Density Formula : 밀도 = 질량부피

dx 구간의 길이 = 부피, f(x)dx 확률=질량으로 생각하면, f(x)=fX(x)dxdx는 밀도를 의미한다.

  1. 확률밀도함수에서 구간 [a,b]의 확률은 다음과 같다.
    P(a<Xb)=FX(b)FX(a)=bafX(x)dx

    • fX(x)dx를 구간[a,b]에서 연속적으로 더한다는 의미이다.
    • dxx의 변화량 = 구간[a,b]의 길이
    • fX(x)=확률(질량)구간의길이(부피)=fX(x)dxdx이면
      fX(x)dxdx ×dx=fX(x)dxdx
      확률구간의길이 × 구간의길이 = 확률
  2. 연속확률변수 X에 대해서, x 에서 확률밀도를 식으로 표현하면 다음과 같다.
    fX(x)=limΔ0+P(x<Xx+Δ)Δ=0

    • Δ : (x,x+Δ] 구간의 길이 (부피)
    • P(x<Xx+Δ) = 구간의 확률의 극한 값이 구간의 길이로 나누어진 값이므로 0이된다. P(x<Xx+Δ)=FX(x+Δ)FX(x) 이므로, 분자를 다음과 같이 바꿀 수 있다.
      fX(x)=limΔ0FX(x+Δ)FX(x)Δ
      Fx(x)x에서 미분가능하다면 미분의 정의와 같다.

확률밀도함수 PDF, 연속확률변수의 누적분포함수 CDF

연속확률변수 X with RX=R의 확률밀도함수는 누적분포함수의 derivative 미분값

fX(x)=dFX(x)dx=FX(x),if FX(x) is differentiable at x
P(XA)=AfX(x)dx

  • 확률밀도함수의 속성

    • fX(x)0 for all xR
    • fX(u)du=1
    • P(a<Xb)=FX(b)FX(a)=bafX(u)du
    • More generally, for a set A, P(XA)=AfX(u)du
  • 연속확률변수의 누적분포함수 속성

    • limxF(x)=0
    • limx+F(x)=1
    • Fnondecreasing 감소하지 않는 형태 (입력이 크면 누적분포함수값은 같거나 커진다.)
    • Fcontinuous 연속
  • 누적분포함수의 그래프

    확률질량함수는 이산확률변수 각 하나의 값에 대응하는 (차트의) 높이가 확률이지만, 확률밀도함수는 구간의 면적이 확률이다.


Source&Reference : Mathematics for Machine Learning


Powered by Yiting & Majiang