[STAT-WIKI] 머신러닝을 위한 확률론 - 이산/연속확률변수와 확률분포함수의 특징에 대해 정리합니다.
확률변수/확률분포/확률분포함수
확률변수의 개념
$X:S\mapsto{\mathbb R}$ : 확률변수$X$는 random experiment
확률실험의 sample space
표본공간 $S$가 정의역이고 실수가 공역인 측정함수이다.
확률변수 $X$를 주사위 눈금이라고 가정하면, $x_1$=1, $x_2$=2, $x_3$=3, ...이다. 이 때, 확률은 $P(x_1=1)=\frac{1}{6}$ , $P(x_2=2)\frac{1}{6}$, ...로 나타낼 수 있다. 즉, 데이터 분석에서 확률변수 = 데이터의 값이라고도 볼 수 있다.
확률변수의 종류 : 이산/연속
확률변수$X$의 Support or Range of a random variable
정의역을 $X(S), R_X$로 표기한다. $X(S), R_X$ 정의역 속성에 따라, 이산확률변수와 연속확률변수로 분류할 수 있다.
Discrete Random variable - Countable
이산형 확률변수- 확률변수의 정의역$X(S)$이 유한하고 셀 수 있는 경우 , 확률변수$X$는 이산확률변수이다.
- e.g 2개 주사위 눈금 합, 일주일간 교통사고 건수 등
Continuous Random variable - Uncountable
연속형 확률변수- 확률 변수의 정의역$X(S)$이 실수 구간의 모든 원소들을 포함하는 경우, 확률변수$X$는 연속확률변수이다.
- e.g 특정 도시의 기업 종사자 연봉, 월 강수량 등
확률분포
확률분포는 확률변수와 그에 대응하는 확률과의 관계이다. 즉, 확률분포는 어떤 사건에 어느 정도의 확률이 할당되었는지에 대한 정보를 보여준다.
확률분포함수
확률분포함수는 확률변수의 값이 정의역, 각 값에 대응하는 확률값을 공역으로 하는 함수이다.
- 확률분포함수의 종류
- 확률질량함수 $PMF,\ \ p_X(x)$ : 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수
- 확률밀도함수 $PDF,\ \ f_X(x)$
- 누적분포함수
Cumulative distribution function (CDF)
: 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수
- 확률분포함수 그래프
확률변수(이산/연속)에 따른 확률 분포 함수를 정리해보자. 👇
1. 이산확률변수
확률질량함수 PMF
Probability mass function (PMF) 확률질량함수는 이산확률변수$X$가 실수$x$와 일치할 확률을 연관시킨다. 확률을 가능성의 크기/질량으로 간주하면, $X$값에 따른 확률(질량)을 나타낼 수 있으므로 확률질량함수라고 부른다.
이산확률변수 $X$ with $R_X={x_1,x_2,x_3,...}$의 확률질량함수
$P_X(x_k)=P(X=x_k), \textrm{ for } k=1,2,3,...,$
$\begin{equation} \nonumber P_X(x) = \left\{ \begin{array}{l l} P(X=x) & \quad \text{if x is in } R_X\\ 0 & \quad \text{otherwise} \end{array} \right. \end{equation}$
- 확률질량함수의 속성
- $0\leq P_X(x) \leq 1$ for all $x \in \mathbb{R}$ : 확률질량함수는 모든 실수$x$에 대해 0과 1사이의 값을 가진다.
- $\sum_{x \in R_X} P_X(x)=1$
- for any set $A \subset R_X, P(X \in A)=\sum_{x \in A} P_X(x)$
- 확률질량함수의 그래프
이산확률변수 $X$에 대응하는 확률 $Px(X=x)$ 차트의 높이(길이)이다.
누적분포함수 CDF
이산확률변수 $X$ with $R_X={x_1,x_2,x_3,...}$의 누적분포함수
$F(x)=P(X\leq x)=\sum_{x_i\leq x}p(x_i),\quad\text{where }x_i\in{\mathbb R}$
$F_X(x)=\sum_{x_k \leq x} P_X(x_k)$
이산확률변수의 누적분포함수 속성
- $\lim\limits_{x\rightarrow-\infty}F(x)=0$
- $\lim\limits_{x\rightarrow+\infty}F(x)=1$
- $F$는
nondecreasing
감소하지 않는 형태 (입력이 크면 누적분포함수값은 같거나 커진다.) - $F$는
right-continuous
우연속 (불연속함수)
누적분포함수의 그래프
- $F_X(x_k)-F_X(x_k-\epsilon)=P_X(x_k), \textrm{ For $\epsilon>0$ small enough.}$
CDF jumps at each $x_k$ : 이산확률변수의 누적분포함수는 $x_k$마다 점프한다. 이는 불연속이며, $P(X=x)>0$ 가 성립함을 의미한다. - For all $a \leq b$, $P(a < X \leq b)=F_X(b)-F_X(a)$
- $F_X(b)=F_X(a) + P(a < X \leq b)$
- $P(X < x)=P(X \leq x)-P(X=x)=F_X(x)-P_X(x)$
이산확률변수의 경우, 부등식 기호≤
,<
차이가 존재하기 때문에 주의해야한다.
- $F_X(x_k)-F_X(x_k-\epsilon)=P_X(x_k), \textrm{ For $\epsilon>0$ small enough.}$
2. 연속확률변수
이산확률변수와 가장 큰 차이점은 연속확률변수의 누적분포함수는 연속함수라는 (점프가 존재하지 않는) 점이다. no jumps
점프가 없다는 것은 모든 $x$에 대해 $P(X=x)=0$가 성립함을 의미한다.
확률밀도함수와 누적분포함수
이산확률변수의 경우 확률질량함수, 누적분포함수 모두 쉽게 정의되지만, 연속확률변수의 경우 누적분포함수는 잘 정의되어있지만, 확률밀도함수는 그렇지 않다. 연속확률변수가 모든 실수 $x$에 대해서 $P(X=x)=0$이기 때문이다. 대신에 확률밀도함수는 이름처럼 물리학의 density
밀도의 개념을 활용해 정의해볼 수 있다.
확률밀도함수 도출과정
- 연속확률변수의 CDF를 다음과 같이 나타낼 수 있다.
$F(x)=\int\limits_{-\infty}^{x}f(t)dt$ - 연속확률변수의 CDF는 연속이기때문에 미분가능하고, 누적분포함수를 미분하면 PDF를 얻을 수 있다.
$f(x)=\frac{d F(x)}{d x}$
또한 CDF가 non-decreasing이므로
$x\to\infty$ : $CDF\to1$ , $x\to-\infty$ : $CDF\to0$
이 과정을 밀도공식을 적용해 정리해보자.
Density Formula : 밀도 = $\frac{질량}{부피}$
$dx$ 구간의 길이 = 부피, $f(x)dx$ 확률=질량으로 생각하면, $f(x) = \frac{f_X(x)dx}{dx}$는 밀도를 의미한다.
확률밀도함수에서 구간 [$a, b$]의 확률은 다음과 같다.
$P(a < X \leq b) = F_X(b)-F_X(a)=\int_{a}^{b} f_X(x)dx$- $f_X(x)dx$를 구간[$a, b$]에서 연속적으로 더한다는 의미이다.
- $dx$는 $x$의 변화량 = 구간[$a, b$]의 길이
- $f_X(x)=\frac{확률(질량)}{구간의 길이(부피)} = \frac{f_X(x)dx}{dx}$이면
$\frac{f_X(x)dx}{dx}$ ×$dx = \frac{f_X(x)dx}{dx}$
$\frac{확률}{구간의 길이}$ × 구간의길이 = 확률
연속확률변수 $X$에 대해서, $x$ 에서 확률밀도를 식으로 표현하면 다음과 같다.
$f_X(x)=\lim_{\Delta \rightarrow 0^+} \frac{P(x < X \leq x+\Delta)}{\Delta}=0$- $\Delta$ : $(x,x+\Delta]$ 구간의 길이 (부피)
- $P(x < X \leq x+\Delta)$ = 구간의 확률의 극한 값이 구간의 길이로 나누어진 값이므로 0이된다. $P(x < X \leq x+\Delta)=F_X(x+\Delta)-F_X(x)$ 이므로, 분자를 다음과 같이 바꿀 수 있다.
$f_X(x)=\lim_{\Delta \rightarrow 0} \frac{F_X(x+\Delta)-F_X(x)}{\Delta}$
$F_x(x)$가 $x$에서 미분가능하다면 미분의 정의와 같다.
확률밀도함수 PDF, 연속확률변수의 누적분포함수 CDF
연속확률변수 $X$ with $R_X={\mathbb R}$의 확률밀도함수는 누적분포함수의
derivative
미분값$f_X(x)=\frac{dF_X(x)}{dx}=F'_X(x), \textrm{if }F_X(x) \textrm{ is differentiable at }x$
$P(X\in A)=\int_A f_X(x)dx$
확률밀도함수의 속성
- $f_X(x) \geq 0$ for all $x \in \mathbb{R}$
- $\int_{-\infty}^{\infty} f_X(u)du=1$
- $P(a < X \leq b) = F_X(b)-F_X(a)=\int_{a}^{b} f_X(u)du$
- More generally, for a set $A$, $P(X \in A) =\int_{A} f_X(u)du$
연속확률변수의 누적분포함수 속성
- $\lim\limits_{x\rightarrow-\infty}F(x)=0$
- $\lim\limits_{x\rightarrow+\infty}F(x)=1$
- $F$는
nondecreasing
감소하지 않는 형태 (입력이 크면 누적분포함수값은 같거나 커진다.) - $F$는
continuous
연속
누적분포함수의 그래프
확률질량함수는 이산확률변수 각 하나의 값에 대응하는 (차트의) 높이가 확률이지만, 확률밀도함수는 구간의 면적이 확률이다.
Source&Reference : Mathematics for Machine Learning
'Statistics > Probability' 카테고리의 다른 글
[확률론] 확률의 개념과 성질 (0) | 2021.11.01 |
---|---|
[확률론] 확률분포, 정규분포와 중심극한정리, 정규분포에서 파생된 분포 (스튜던트t통계량, 카이제곱분포, F분포) (0) | 2021.08.03 |
[확률론] 베이즈 정리와 베이즈 정리의 확장 (0) | 2021.07.28 |