[확률론] 확률변수와 확률분포함수

[STAT-WIKI] 머신러닝을 위한 확률론 - 이산/연속확률변수와 확률분포함수의 특징에 대해 정리합니다.

확률변수/확률분포/확률분포함수

확률변수의 개념

$X:S\mapsto{\mathbb R}$ : 확률변수$X$는 random experiment확률실험의 sample space표본공간 $S$가 정의역이고 실수가 공역인 측정함수이다.

확률변수 $X$를 주사위 눈금이라고 가정하면, $x_1$=1, $x_2$=2, $x_3$=3, ...이다. 이 때, 확률은 $P(x_1=1)=\frac{1}{6}$ , $P(x_2=2)\frac{1}{6}$, ...로 나타낼 수 있다. 즉, 데이터 분석에서 확률변수 = 데이터의 값이라고도 볼 수 있다.

확률변수의 종류 : 이산/연속

확률변수$X$의 Support or Range of a random variable 정의역을 $X(S), R_X$로 표기한다. $X(S), R_X$ 정의역 속성에 따라, 이산확률변수와 연속확률변수로 분류할 수 있다.

  • Discrete Random variable - Countable 이산형 확률변수
    • 확률변수의 정의역$X(S)$이 유한하고 셀 수 있는 경우 , 확률변수$X$는 이산확률변수이다.
    • e.g 2개 주사위 눈금 합, 일주일간 교통사고 건수 등
  • Continuous Random variable - Uncountable 연속형 확률변수
    • 확률 변수의 정의역$X(S)$이 실수 구간의 모든 원소들을 포함하는 경우, 확률변수$X$는 연속확률변수이다.
    • e.g 특정 도시의 기업 종사자 연봉, 월 강수량 등

확률분포

확률분포는 확률변수와 그에 대응하는 확률과의 관계이다. 즉, 확률분포는 어떤 사건에 어느 정도의 확률이 할당되었는지에 대한 정보를 보여준다.

확률분포함수

확률분포함수는 확률변수의 값이 정의역, 각 값에 대응하는 확률값을 공역으로 하는 함수이다.

  • 확률분포함수의 종류
    • 확률질량함수 $PMF,\ \ p_X(x)$ : 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수
    • 확률밀도함수 $PDF,\ \ f_X(x)$
    • 누적분포함수 Cumulative distribution function (CDF) : 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수
  • 확률분포함수 그래프

확률변수(이산/연속)에 따른 확률 분포 함수를 정리해보자. 👇

1. 이산확률변수

확률질량함수 PMF

Probability mass function (PMF) 확률질량함수는 이산확률변수$X$가 실수$x$와 일치할 확률을 연관시킨다. 확률을 가능성의 크기/질량으로 간주하면, $X$값에 따른 확률(질량)을 나타낼 수 있으므로 확률질량함수라고 부른다.

이산확률변수 $X$ with $R_X={x_1,x_2,x_3,...}$의 확률질량함수

$P_X(x_k)=P(X=x_k), \textrm{ for } k=1,2,3,...,$

$\begin{equation} \nonumber P_X(x) = \left\{ \begin{array}{l l} P(X=x) & \quad \text{if x is in } R_X\\ 0 & \quad \text{otherwise} \end{array} \right. \end{equation}$

  • 확률질량함수의 속성
    • $0\leq P_X(x) \leq 1$ for all $x \in \mathbb{R}$ : 확률질량함수는 모든 실수$x$에 대해 0과 1사이의 값을 가진다.
    • $\sum_{x \in R_X} P_X(x)=1$
    • for any set $A \subset R_X, P(X \in A)=\sum_{x \in A} P_X(x)$
  • 확률질량함수의 그래프

    이산확률변수 $X$에 대응하는 확률 $Px(X=x)$ 차트의 높이(길이)이다.

누적분포함수 CDF

이산확률변수 $X$ with $R_X={x_1,x_2,x_3,...}$의 누적분포함수

$F(x)=P(X\leq x)=\sum_{x_i\leq x}p(x_i),\quad\text{where }x_i\in{\mathbb R}$
$F_X(x)=\sum_{x_k \leq x} P_X(x_k)$

  • 이산확률변수의 누적분포함수 속성

    • $\lim\limits_{x\rightarrow-\infty}F(x)=0$
    • $\lim\limits_{x\rightarrow+\infty}F(x)=1$
    • $F$는 nondecreasing 감소하지 않는 형태 (입력이 크면 누적분포함수값은 같거나 커진다.)
    • $F$는 right-continuous 우연속 (불연속함수)
  • 누적분포함수의 그래프

    • $F_X(x_k)-F_X(x_k-\epsilon)=P_X(x_k), \textrm{ For $\epsilon>0$ small enough.}$
      CDF jumps at each $x_k$ : 이산확률변수의 누적분포함수는 $x_k$마다 점프한다. 이는 불연속이며, $P(X=x)>0$ 가 성립함을 의미한다.
    • For all $a \leq b$, $P(a < X \leq b)=F_X(b)-F_X(a)$
    • $F_X(b)=F_X(a) + P(a < X \leq b)$
    • $P(X < x)=P(X \leq x)-P(X=x)=F_X(x)-P_X(x)$
      이산확률변수의 경우, 부등식 기호 , <차이가 존재하기 때문에 주의해야한다.

2. 연속확률변수

이산확률변수와 가장 큰 차이점은 연속확률변수의 누적분포함수는 연속함수라는 (점프가 존재하지 않는) 점이다. no jumps 점프가 없다는 것은 모든 $x$에 대해 $P(X=x)=0$가 성립함을 의미한다.

확률밀도함수와 누적분포함수

이산확률변수의 경우 확률질량함수, 누적분포함수 모두 쉽게 정의되지만, 연속확률변수의 경우 누적분포함수는 잘 정의되어있지만, 확률밀도함수는 그렇지 않다. 연속확률변수가 모든 실수 $x$에 대해서 $P(X=x)=0$이기 때문이다. 대신에 확률밀도함수는 이름처럼 물리학의 density 밀도의 개념을 활용해 정의해볼 수 있다.

확률밀도함수 도출과정

  1. 연속확률변수의 CDF를 다음과 같이 나타낼 수 있다.
    $F(x)=\int\limits_{-\infty}^{x}f(t)dt$
  2. 연속확률변수의 CDF는 연속이기때문에 미분가능하고, 누적분포함수를 미분하면 PDF를 얻을 수 있다.
    $f(x)=\frac{d F(x)}{d x}$
    또한 CDF가 non-decreasing이므로
    $x\to\infty$ : $CDF\to1$ , $x\to-\infty$ : $CDF\to0$

이 과정을 밀도공식을 적용해 정리해보자.

Density Formula : 밀도 = $\frac{질량}{부피}$

$dx$ 구간의 길이 = 부피, $f(x)dx$ 확률=질량으로 생각하면, $f(x) = \frac{f_X(x)dx}{dx}$는 밀도를 의미한다.

  1. 확률밀도함수에서 구간 [$a, b$]의 확률은 다음과 같다.
    $P(a < X \leq b) = F_X(b)-F_X(a)=\int_{a}^{b} f_X(x)dx$

    • $f_X(x)dx$를 구간[$a, b$]에서 연속적으로 더한다는 의미이다.
    • $dx$는 $x$의 변화량 = 구간[$a, b$]의 길이
    • $f_X(x)=\frac{확률(질량)}{구간의 길이(부피)} = \frac{f_X(x)dx}{dx}$이면
      $\frac{f_X(x)dx}{dx}$ ×$dx = \frac{f_X(x)dx}{dx}$
      $\frac{확률}{구간의 길이}$ × 구간의길이 = 확률
  2. 연속확률변수 $X$에 대해서, $x$ 에서 확률밀도를 식으로 표현하면 다음과 같다.
    $f_X(x)=\lim_{\Delta \rightarrow 0^+} \frac{P(x < X \leq x+\Delta)}{\Delta}=0$

    • $\Delta$ : $(x,x+\Delta]$ 구간의 길이 (부피)
    • $P(x < X \leq x+\Delta)$ = 구간의 확률의 극한 값이 구간의 길이로 나누어진 값이므로 0이된다. $P(x < X \leq x+\Delta)=F_X(x+\Delta)-F_X(x)$ 이므로, 분자를 다음과 같이 바꿀 수 있다.
      $f_X(x)=\lim_{\Delta \rightarrow 0} \frac{F_X(x+\Delta)-F_X(x)}{\Delta}$
      $F_x(x)$가 $x$에서 미분가능하다면 미분의 정의와 같다.

확률밀도함수 PDF, 연속확률변수의 누적분포함수 CDF

연속확률변수 $X$ with $R_X={\mathbb R}$의 확률밀도함수는 누적분포함수의 derivative 미분값

$f_X(x)=\frac{dF_X(x)}{dx}=F'_X(x), \textrm{if }F_X(x) \textrm{ is differentiable at }x$
$P(X\in A)=\int_A f_X(x)dx$

  • 확률밀도함수의 속성

    • $f_X(x) \geq 0$ for all $x \in \mathbb{R}$
    • $\int_{-\infty}^{\infty} f_X(u)du=1$
    • $P(a < X \leq b) = F_X(b)-F_X(a)=\int_{a}^{b} f_X(u)du$
    • More generally, for a set $A$, $P(X \in A) =\int_{A} f_X(u)du$
  • 연속확률변수의 누적분포함수 속성

    • $\lim\limits_{x\rightarrow-\infty}F(x)=0$
    • $\lim\limits_{x\rightarrow+\infty}F(x)=1$
    • $F$는 nondecreasing 감소하지 않는 형태 (입력이 크면 누적분포함수값은 같거나 커진다.)
    • $F$는 continuous 연속
  • 누적분포함수의 그래프

    확률질량함수는 이산확률변수 각 하나의 값에 대응하는 (차트의) 높이가 확률이지만, 확률밀도함수는 구간의 면적이 확률이다.


Source&Reference : Mathematics for Machine Learning