[STAT-WIKI] 머신러닝을 위한 확률론 - 이산/연속확률변수와 확률분포함수의 특징에 대해 정리합니다.
확률변수/확률분포/확률분포함수
확률변수의 개념
X:S↦R : 확률변수X는 random experiment
확률실험의 sample space
표본공간 S가 정의역이고 실수가 공역인 측정함수이다.
확률변수 X를 주사위 눈금이라고 가정하면, x1=1, x2=2, x3=3, ...이다. 이 때, 확률은 P(x1=1)=16 , P(x2=2)16, ...로 나타낼 수 있다. 즉, 데이터 분석에서 확률변수 = 데이터의 값이라고도 볼 수 있다.
확률변수의 종류 : 이산/연속
확률변수X의 Support or Range of a random variable
정의역을 X(S),RX로 표기한다. X(S),RX 정의역 속성에 따라, 이산확률변수와 연속확률변수로 분류할 수 있다.
Discrete Random variable - Countable
이산형 확률변수- 확률변수의 정의역X(S)이 유한하고 셀 수 있는 경우 , 확률변수X는 이산확률변수이다.
- e.g 2개 주사위 눈금 합, 일주일간 교통사고 건수 등
Continuous Random variable - Uncountable
연속형 확률변수- 확률 변수의 정의역X(S)이 실수 구간의 모든 원소들을 포함하는 경우, 확률변수X는 연속확률변수이다.
- e.g 특정 도시의 기업 종사자 연봉, 월 강수량 등
확률분포
확률분포는 확률변수와 그에 대응하는 확률과의 관계이다. 즉, 확률분포는 어떤 사건에 어느 정도의 확률이 할당되었는지에 대한 정보를 보여준다.
확률분포함수
확률분포함수는 확률변수의 값이 정의역, 각 값에 대응하는 확률값을 공역으로 하는 함수이다.
- 확률분포함수의 종류
- 확률질량함수 PMF, pX(x) : 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수
- 확률밀도함수 PDF, fX(x)
- 누적분포함수
Cumulative distribution function (CDF)
: 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수
- 확률분포함수 그래프
확률변수(이산/연속)에 따른 확률 분포 함수를 정리해보자. 👇
1. 이산확률변수
확률질량함수 PMF
Probability mass function (PMF) 확률질량함수는 이산확률변수X가 실수x와 일치할 확률을 연관시킨다. 확률을 가능성의 크기/질량으로 간주하면, X값에 따른 확률(질량)을 나타낼 수 있으므로 확률질량함수라고 부른다.
이산확률변수 X with RX=x1,x2,x3,...의 확률질량함수
PX(xk)=P(X=xk), for k=1,2,3,...,
PX(x)={P(X=x)if x is in RX0otherwise
- 확률질량함수의 속성
- 0≤PX(x)≤1 for all x∈R : 확률질량함수는 모든 실수x에 대해 0과 1사이의 값을 가진다.
- ∑x∈RXPX(x)=1
- for any set A⊂RX,P(X∈A)=∑x∈APX(x)
- 확률질량함수의 그래프
이산확률변수 X에 대응하는 확률 Px(X=x) 차트의 높이(길이)이다.
누적분포함수 CDF
이산확률변수 X with RX=x1,x2,x3,...의 누적분포함수
F(x)=P(X≤x)=∑xi≤xp(xi),where xi∈R
FX(x)=∑xk≤xPX(xk)
이산확률변수의 누적분포함수 속성
- limx→−∞F(x)=0
- limx→+∞F(x)=1
- F는
nondecreasing
감소하지 않는 형태 (입력이 크면 누적분포함수값은 같거나 커진다.) - F는
right-continuous
우연속 (불연속함수)
누적분포함수의 그래프
- FX(xk)−FX(xk−ϵ)=PX(xk), For ϵ>0 small enough.
CDF jumps at each xk : 이산확률변수의 누적분포함수는 xk마다 점프한다. 이는 불연속이며, P(X=x)>0 가 성립함을 의미한다. - For all a≤b, P(a<X≤b)=FX(b)−FX(a)
- FX(b)=FX(a)+P(a<X≤b)
- P(X<x)=P(X≤x)−P(X=x)=FX(x)−PX(x)
이산확률변수의 경우, 부등식 기호≤
,<
차이가 존재하기 때문에 주의해야한다.
- FX(xk)−FX(xk−ϵ)=PX(xk), For ϵ>0 small enough.
2. 연속확률변수
이산확률변수와 가장 큰 차이점은 연속확률변수의 누적분포함수는 연속함수라는 (점프가 존재하지 않는) 점이다. no jumps
점프가 없다는 것은 모든 x에 대해 P(X=x)=0가 성립함을 의미한다.
확률밀도함수와 누적분포함수
이산확률변수의 경우 확률질량함수, 누적분포함수 모두 쉽게 정의되지만, 연속확률변수의 경우 누적분포함수는 잘 정의되어있지만, 확률밀도함수는 그렇지 않다. 연속확률변수가 모든 실수 x에 대해서 P(X=x)=0이기 때문이다. 대신에 확률밀도함수는 이름처럼 물리학의 density
밀도의 개념을 활용해 정의해볼 수 있다.
확률밀도함수 도출과정
- 연속확률변수의 CDF를 다음과 같이 나타낼 수 있다.
F(x)=∫x−∞f(t)dt - 연속확률변수의 CDF는 연속이기때문에 미분가능하고, 누적분포함수를 미분하면 PDF를 얻을 수 있다.
f(x)=dF(x)dx
또한 CDF가 non-decreasing이므로
x→∞ : CDF→1 , x→−∞ : CDF→0
이 과정을 밀도공식을 적용해 정리해보자.
Density Formula : 밀도 = 질량부피
dx 구간의 길이 = 부피, f(x)dx 확률=질량으로 생각하면, f(x)=fX(x)dxdx는 밀도를 의미한다.
확률밀도함수에서 구간 [a,b]의 확률은 다음과 같다.
P(a<X≤b)=FX(b)−FX(a)=∫bafX(x)dx- fX(x)dx를 구간[a,b]에서 연속적으로 더한다는 의미이다.
- dx는 x의 변화량 = 구간[a,b]의 길이
- fX(x)=확률(질량)구간의길이(부피)=fX(x)dxdx이면
fX(x)dxdx ×dx=fX(x)dxdx
확률구간의길이 × 구간의길이 = 확률
연속확률변수 X에 대해서, x 에서 확률밀도를 식으로 표현하면 다음과 같다.
fX(x)=limΔ→0+P(x<X≤x+Δ)Δ=0- Δ : (x,x+Δ] 구간의 길이 (부피)
- P(x<X≤x+Δ) = 구간의 확률의 극한 값이 구간의 길이로 나누어진 값이므로 0이된다. P(x<X≤x+Δ)=FX(x+Δ)−FX(x) 이므로, 분자를 다음과 같이 바꿀 수 있다.
fX(x)=limΔ→0FX(x+Δ)−FX(x)Δ
Fx(x)가 x에서 미분가능하다면 미분의 정의와 같다.
확률밀도함수 PDF, 연속확률변수의 누적분포함수 CDF
연속확률변수 X with RX=R의 확률밀도함수는 누적분포함수의
derivative
미분값fX(x)=dFX(x)dx=F′X(x),if FX(x) is differentiable at x
P(X∈A)=∫AfX(x)dx
확률밀도함수의 속성
- fX(x)≥0 for all x∈R
- ∫∞−∞fX(u)du=1
- P(a<X≤b)=FX(b)−FX(a)=∫bafX(u)du
- More generally, for a set A, P(X∈A)=∫AfX(u)du
연속확률변수의 누적분포함수 속성
- limx→−∞F(x)=0
- limx→+∞F(x)=1
- F는
nondecreasing
감소하지 않는 형태 (입력이 크면 누적분포함수값은 같거나 커진다.) - F는
continuous
연속
누적분포함수의 그래프
확률질량함수는 이산확률변수 각 하나의 값에 대응하는 (차트의) 높이가 확률이지만, 확률밀도함수는 구간의 면적이 확률이다.
Source&Reference : Mathematics for Machine Learning
'Statistics > Probability' 카테고리의 다른 글
[확률론] 확률의 개념과 성질 (0) | 2021.11.01 |
---|---|
[확률론] 확률분포, 정규분포와 중심극한정리, 정규분포에서 파생된 분포 (스튜던트t통계량, 카이제곱분포, F분포) (0) | 2021.08.03 |
[확률론] 베이즈 정리와 베이즈 정리의 확장 (0) | 2021.07.28 |