[STAT-WIKI] A/B 테스트 결과 분석과 관련된 통계학 개념 베이즈 정리와 그의 확장에 대해 학습한 내용을 정리합니다.
확률의 의미를 해석하는 두 가지 관점 베이지안과 빈도주의로 정리했다. 확률의 의미 포스트
Bayesian 베이지안 | Frequentist 빈도주의 |
---|---|
과거의 사건이 현재 사건에 영향을 준다는 관점 | 현재의 객관적인 확률에 의해서 사건이 발생한다는 관점 |
사전확률과 베이즈 정리로 사후 확률을 얻고, 사전확률을 업데이트한다. | (무한)반복된 실험 결과, 객관적으로 발생하는 사건의 Frequency 빈도 수로 사건의 확률을 구한다. |
베이지안 관점의 바탕이 되는 베이즈 정리와 그의 확장에 대해서 살펴보자.
베이즈 정리
베이즈 정리는 데이터라는 조건이 주어졌을 때의 조건부확률을 구하는 공식이다.
$P(A|B) = \dfrac{P(B|A)P(A)}{P(B)}$
- $P(A|B)$ :
posterior
사후확률, 사건B가 발생한 후 갱신된 사건 A의 확률 - $P(A)$ :
prior
사전 확률, 사건B가 발생하기 전에 가지고 있던 사건 A의 확률 - $P(B|A)$ :
likelihood
가능도, 사건 A가 발생한 경우 사건 B의 확률 - $P(B)$ :
normalizing constant or evidence
정규화 상수 or 증거, 확률의 크기 조정
- $P(A|B)$ :
베이즈 정리를 사용하면 데이터가 주어지기 전의 사전 확률값이 데이터가 주어지면서 어떻게 변하는 지 계산할 수 있다. : $P(A)$ ⇒ $P(A|B)$
베이즈정리를 활용하면 데이터를 매일 추가적으로 얻는 상황에서도 매일 전체 데이터를 대상으로 새로 분석작업을 할 필요없이, 어제 분석결과에 오늘 들어온 데이터를 합쳐서 업데이트만 하면 되므로 유용하게 활용할 수 있다.
베이즈 정리의 확장
사건 분할과 전확률의 법칙
✔ Event Decomposition
사건 분할
하나의 사건은 다른 사건의 union
합과 intersection
곱으로 분할될 수 있다.
사건 $B$는 표본공간 $S$를 2개의 영역으로 나눈다. 사건 $A$가 사건 $B$에 의해 두 개의 곱 $AB, AB^c$로 disjoint
하게 나뉘므로, $A=AB+AB^c$로 표현할 수 있다.
✔ law of totalprobability
전확률의 법칙
전확률의 법칙은 $P(A)$를 구하는 방법이 A를 상호 배반적인 사건(${A,B_1}, {A,B_2}, ...$ 으로 나누어 계산하는 방법을 일반화한 것이다.
$P(A) = \sum_i P(A,B_i)$ ( 확률의 성질 포스트 - 전확률의 법칙 증명 )
베이즈 정리의 확장 1
사건 $A_i$가 서로 배타적이고 완전하다고 가정했을 때
베이즈 정리의 확장 1 적용 : 검사 시약 문제
검사 시약 문제에 베이즈 정리의 확장을 적용해 볼 수 있다.
걸릴 확률이 0.002인 병에 걸린 사람이 양성 반응을 보일 확률은 0.99이다. 병에 걸리지 않은 사람이 양성반응을 보일 확률은 0.05이다. 병에 걸린 지 확인이 되지 않은 어떤 환자가 이 시약을 테스트한 결과 양성 반응을 보인 경우, 해당 환자가 그 병에 걸려 있을 확률을 구하라.
- 사건이 모두 이진분류의 문제이기 때문에 베이즈 정리의 확장을 적용해 확률을 구할 수 있다.
- 병에 걸리는 사건 $D$
- 양성 반응을 보이는 사건 $S$
- 병에 걸린 사람이 양성 반응을 보이는 조건부 사건 $S|D$
- 양성 반응을 보이는 사람이 병에 걸려있을 조건부 사건 $D|S$
문제에서 주어진 조건을 정리하면 다음과 같다.
- 병에 걸릴 확률 : $P(D) = 0.002$
- 병에 걸린 사람이 양성반응을 보일 확률 $P(S|D) = 0.99$
- 병에 걸리지 않은 사람이 양성반응을 보일 확률 $P(S|D^C) = 0.05$
베이즈 정리에 의하면, 구하고자 하는 확률은 $P(D|S) = \dfrac{P(S|D)P(D)}{P(S)}$이다. 문제에서 주어진 조건을 활용해 베이즈 정리의 확장을 적용해보자.
$P(D|S) = \dfrac{P(S|D)P(D)}{P(S)}$
$= \dfrac{P(S|D)P(D)}{P(S,D) + P(S,D^C)}$
$= \dfrac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)P(D^C)}$
$= \dfrac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)(1-P(D))}$
$= \dfrac{0.99 \cdot 0.002}{0.99 \cdot 0.002 + 0.05 \cdot (1 - 0.002)}$
$= 0.038$
베이즈 정리의 확장 2
Source&Reference : 김도형의 데이터 사이언스 스쿨, image
'Statistics > Probability' 카테고리의 다른 글
[확률론] 확률변수와 확률분포함수 (0) | 2021.11.01 |
---|---|
[확률론] 확률의 개념과 성질 (0) | 2021.11.01 |
[확률론] 확률분포, 정규분포와 중심극한정리, 정규분포에서 파생된 분포 (스튜던트t통계량, 카이제곱분포, F분포) (0) | 2021.08.03 |