[확률론] 확률의 개념과 성질

[STAT-WIKI] 머신러닝에 있어 필요한 확률론 - 확률 개념, 수학적 정의, 공리, 의미, 성질을 정리합니다.

머신러닝을 위한 확률론

Mindmap - Probability for Machine Learning

확률론의 기본 개념이 머신러닝에서 어떻게 활용될까?

✔ 불확실성과 확률변수

Probability concerns the study of uncertainty. 확률은 불확실성에 대한 연구로, 사건이 발생한 횟수의 비율 혹은 사건에 대한 믿음의 정도를 의미한다. 무작위 실험의 결과를 관심 있는 속성 집합에 매핑하는 함수인 Random variable 확률 변수에 대한 아이디어가 필요하다. 이러한 확률 변수의 개념이 데이터, 머신러닝 모델, 모델 예측에 존재하는 불확실성을 quantify 정량화하는데 필요하다.

✔ 확률분포

Probability distribution 확률분포는 확률변수와 관련된 특정한 결과(혹은 결과의 확률 집합)가 발생할 확률을 측정하는 함수이다. 확률분포는 probabilistic modeling, graphical models, model selection의 기초 개념으로 사용된다.

확률의 개념

확률은 미래에 발생할 사건에 대한 믿음에 대한 측정값이다. 확률 개념은 관심 현상의 측정값을 불확실성에 의해 예측할 수 없는 경우 사용한다. 예측 할 수 없는 상황 Random인 사건이라도 해당 사건에 대한 relative frequency 상대 빈도가 있으면 예측 가능하다.

확률 측정

  1. Relative frequency 상대빈도
    $P(A) = lim_{n→∞}\dfrac{f}{n}$
    관심사건$A$의 확률을 무한 실험$n$ 후 관심사건의 횟수$f$로 계산한다.
    • 예를 들어, 제품의 불량률(확률)을 제품검사(확률실험)을 통해 검사 제품 개수 중 불량품의 개수(상대빈도)로 계산한다.
  2. Laplace 확률
    표본공간의 각 원소들이 equally likely 일어날 가능성이 같다고 가정해 확률을 정의하는 것을 Laplace 확률(고전적 정의)이라고 한다.일반적으로 Laplace확률 정의는 표본공간 개수가 유한하고, 원소를 모두 알고 있을 때 사용하는데 대부분의 확률 모형이 이 정의를 기반으로 정의된다.
    • 예를 들어, 주사위를 던지는 실험에서 짝수가 나올 확률을 0.5로 정의하는데, 표본 공간의 원소개수가 6개이고 짝수 사건의 원소가 3개이기 때문이다. 이 때 고전적 정의의 가정은 각 원소가 나타날 확률이 1/6로 동일하다는 것이다.

확률의 수학적 정의

확률표본, 표본공간, 사건

Sample, Probabilistic Sample, Random Sample 확률표본

확률표본은 확률적 문제에서 선택할 수 있는, 발생할 가능성이 있는 한 가지 경우를 의미한다.

Sample space 표본공간 $Ω$

표본공간은 가능성이 있는 모든 경우(표본)을 포함한 집합을 의미한다.the set of all possible outcomes from an experiment

Event space 사건, 부분집합 $A$

표본공간 $Ω$의 부분집합으로, 관심 현상을 가지고 있는 일부 표본의 집합을 의미한다.

확률$P$의 수학적 정의

확률은 관심 사건이 likelihood 일어날 가능성을 숫자로 표현한 것으로 사건(부분집합)을 입력하면 숫자(확률값)을 출력하는 함수라고 할 수 있다.

$\text{사건(부분집합)} \xrightarrow {\text{확률}} \text{숫자(확률값)}$

  • 확률은 표본이 아닌 사건(부분집합)을 입력으로 가지는 함수로, 입력값의 집합 정의역(domain)은 표본공간의 모든 사건(부분집합)의 집합이다.
  • 즉, 확률은 모든 각각의 사건(부분집합)에 어떤 숫자를 할당(assign, allocate)하는 함수이다.
    • $P$ : 확률(함수)
    • $P(A)$ : A 사건(부분집합)에 할당된 숫자
  • 확률은 사건을 입력으로 가지는 함수라고 했다. 따라서, 주사위를 던져 숫자 1이 나타나는 경우를 확률(함수) $P(1) = \dfrac{1}{6}$ 이 아니라, $P(\{1\}) = \dfrac{1}{6}$로 표현한다.

확률 공리

  • Kolmogorov's axioms 콜모고로프의 공리
    표본공간 $Ω$인 실험에서 임의의 사건 $A$에 대해 하기 조건을 만족하는 $P(A)$를 $A$의 확률(probability)이라고 정의하고, 이를 확률의 axiom 공리라고 한다.
    1. $P(A)≥0$
      모든 사건에 대해 확률은 실수이고 0 또는 양수다.
    2. $P(Ω)=1$
      표본공간(전체집합)이라는 사건에 대한 확률은 1이다.
    3. $A∩B=∅ → P(A∪B) = P(A) + P(B)$
      공통 원소가 없는 두 사건의 합집합의 확률은 사건별 확률의 합이다.

확률의 의미

확률값의 의미에 대해서 여러가지 해석이 존재하는데, 그 중 가장 대표적인 것이 빈도주의(Frequentist) 관점과 베이지안(Bayesian)관점이다.

  • 빈도주의 (Frequentist) 관점
    반복적으로 선택된 표본이 사건(부분 집합) $A$의 원소가 될 경향(propensity) 을 해당 사건의 확률이라고 본다.
  • 베이지안 (Bayesian) 관점
    • 선택된 표본이 특정한 사건에 속한다는 가설, 명제, 주장의 degree of belief 신뢰도를 확률이라고 본다. 반복이라는 개념은 사용되지 않는다.
    • 베이지안 확률론에서 사건이 occur 일어났다 혹은 발생했다는 표현은 그 사건(부분집합)의 원소 중에 선택된 표본이 있다는 사실을 알게 되었다는 것을 말한다. 즉, 해당 사건이 말하고 있는 주장이 진실임을 알게되었다는 뜻으로 지금까지 모르고 있던 추가적인 정보가 들어왔음을 의미한다.

빈도주의적 관점 vs 베이지안 관점

검진 결과로 보아 암에 걸렸을 확률이 90%이다

  • 빈도주의적 관점 : 이러한 검진 결과를 가진 환자를 정밀 검사로 확인하는 일을 100번 반복하면 그 중의 약 90명은 암에 걸려 있다
  • 베이지안 관점 : 다른 환자가 암인가 아닌가는 의미가 없기 때문에 "환자가 암에 걸렸다는 의사의 주장이 사실일 가능성(신뢰도)은 90%이다"

확률의 성질

확률의 성질 4가지 : 공집합의 확률, 여집합의 확률, 포함-배제 원리, 전체 확률의 법칙

  1. 공집합의 확률
    $P(\emptyset) = 0$ : 공집합인 사건의 확률은 0이다.

  2. 여집합의 확률
    $P(A^C) = 1 - P(A)$ : 어떤 사건의 여집합인 사건의 확률은 (1 - 원래 사건의 확률)이다.

  3. Inclusion-exclusion principle 포함-배제 원리, 덧셈규칙
    $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ : 두 사건의 합집합의 확률은 각 사건의 확률의 합에서 두 사건의 교집합의 확률을 뺀 것과 같다.

  4. law of total probability 전체 확률의 법칙
    복수의 사건 $C_i$가 다음을 만족하는 사건이라고 가정한다.
    (1) $C_i \cap C_j = \emptyset (i \neq j)$ 서로 교집합이 없다 : mutually exclusive 서로 배타적이다.
    (2) $C_1 \cup C_2 \cup \cdots = \Omega$ 모든 합집합이 전체집합(표본공간)이다 : complete 완전한 부분집합들이다.

    • 증명
      $A = A \cap \Omega$
      $= A \cap (C_1 \cup C_2 \cup \cdots )$
      $= (A \cap C_1) \cup (A \cap C_2) \cup \cdots$

    (1) 서로 공통원소가 없기 때문에 $A\cap C_i$도 서로 공통 원소가 없다. 확률의 정의에 따라 다음 등식이 성립한다.
    $P(A) = P(A \cap C_1) + P(A \cap C_2) + \cdots = \sum_i P(A\cap C_i)$

  5. 이 경우, 사건 $A$의 확률은 사건 $A$ 와 사건 $C_i$ 가 동시에 발생할 사건들의 확률의 합과 같다.
    $P(A) = \sum_i P(A \cap C_i) = \sum_i P(A,C_i)$


Source&Reference : 김도형의 사이언스스쿨, Introduction to probability for datascience