[베이즈통계] 4. Logic, Probability and Uncertainty
내일 비가 올까? 올 수도 있고 오지 않을 수도 있다. 내일의 날씨는 현재의 상황들만 가지고는 '관측'할 수 없다. 오늘의 단서 조항들, 예컨대 오늘의 날씨/구름의 양/온도/습도/바람 등 지금까지 관측해온 데이터를 근거로 예측 할 뿐이다. 그렇게 해서 예측한 내일의 날씨가 '구름 조금'이라면 안 그래도 무거운 가방에 더해 거추장스러운 장우산을 들고 나가지는 않을 것이다. 그렇지만, 여전히 비는 올 수 있다. '구름 조금'이라는 결론은 삼단논법처럼 확실한 명제에 기반한 예측이 아니었기 때문이다. 그렇다 하더라도 우리는 여전히 예측한다. 절대불변의 명제에 기반하여 예측할 수 있는 미래는 매우 한정적이기 때문이다. 우리는 틀리더라도 예측을 한다. 우리의 믿음에 근거하여 우리가 관측할 수 없는 일에 대해 가설을 세운다. 이 가설을 데이터를 통해 업데이트 해 나간다. 이것이 내가 이해하는 베이즈통계, 나아가 변분추론의 기본 사상이다.
1. Deductive Logic and Plausible Reasoning
추론에는 두 가지 방식, ①Deduction과 ②Induction이 있다. Bayes' Theorem은 Induction 방식에 속한다.
Deductive Logic은 위에서 언급한 삼단논법처럼, 'A가 True면 B가 True다', 'A는 True다', 그러므로 'B는 True다' 식의 결론이 나는 방식이다. 일종의 연역적 추론 방식이다. 하지만 요즘의 우리가 알고자 하는 것들은 Deductive Logic에 의해서는 도저히 결론에 이를 수 없다. 그래서 우리는 Plausible Reasoning, 즉 타당한 추론을 통해 예측을 한다. 물론 틀릴 수 있다. 하지만 예측하지 않는 것보다는 낫다. 이 때의 추론을 Induction이라고 한다. Induction은 특정한(Particular) 케이스에서 출발하여 General한 케이스로 나아가는 방식으로 모델을 개선하는 방식이다.
2. Probability
Random experiment, Outcome, Sample space, Event, Union, Intersection, Complement 개념을 다시 짚고가자
3. Axioms of Probability
모든 확률에 대한 정리는 확률에 관한 세 가지 Axiom에서 비롯된다.
1) P(A) ≥ 0 for any event A
2) P(U) = 1
3) If A and B are mutually exclusive events, then P(A∪B) = P(A) + P(B)
→ 추후 Bayes' Theorem에서 Likelihood, Evidence의 확률을 Marginalize 하는 데 사용된다
4. Joint Probability and Independent Events
Event A와 B가 독립이라면, P(A ∩ B) = P(A) × P(B) 다. Dependency는 각 사건에 할당된 확률에 의해 결정된다.
P(A ∩ B) = 0, 즉 교집합이 없는 경우와 서로 독립인 것을 구분하자. (A 또는 B가 발생할 확률이 0보다 크다면) A와 B의 교집합이 공집합일 때의 확률이 0일 경우 이는 서로 독립이 아님을 의미한다. 수식에 의해서도 그렇고, 의미적으로도, A가 발생하면 B는 절대 일어나지 않고, B가 발생하면 A는 절대 발생하지 않는다는, 상호간에 사건 발생 여부에 영향을 미치기 때문이다.
확률을 Marginalize하는 것은 특정 Event에 대한 확률을 서로 Disjoint한 확률들로 나누어 표현하는 것이다
. A = (A ∩ B) ∪ (A ∩ not B)
. P(A) = P(A ∩ B) + P(A ∩ not B)
5. Conditional Probability
조건부 확률은 Given Event를 기반으로 한 Reduced Universe만을 전제로 하며, Reduced Universe 내에서 어떤 사건이 발생했을 확률을 구하는 것이다. 조건부 확률을 이용해서 두 사건의 교집합을 표현할 수 있다.
조건부 확률부터는 Bayes' Theorem에 더 '훅' 가까이 들어가기 시작한다. 그리고 Multiplication rule, Chain rule 등이 나오면서 당연한 소리를 헷갈리게 하는 이야기들이 나오기 시작한다. 당연한 거라서 당연하게 넘어가다보면 뒷 부분에 갈수록 머리를 싸매게 되는, 쉬운데 쉽게 넘어가지지 않는 파트이다. 내가 수식을 보면서 계속 앞뒤로 체크하게 만드는 부분은 Multiplication Rule이었다. 당연한 소리를 당연하지 않게 한다.
P(A | B) = P(A ∩ B) / P(B)
당연한 정리이지만, 이다. 고등학교, 또는 그 이후 다른 분야에서의 확률에 있어서, A와 B의 역할에 차이를 두지 않는다. 하지만 지금부터는 '|'를 사이에 두고 앞에 오는 지, 뒤에 오는 지에 대해 뚜렷이 차이를 두어야 한다. 지금은 A를 Observable, B를 Unobservable로 본다. 즉 앞은 구름의 양, 뒤는 내일 날씨에 대한 확률이다. 이 때 Multiplication Rule에 의해 아래와 같은 표현이 가능하다.
(1) P(A ∩ B) = P(B) × P(A | B)
그리고 not B에 대해서도 마찬가지이다.
(2) P(A ∩ not B) = P(not B) × P(A | not B)
4번의 Marginalize 개념으로 돌아가면 P(A)는 (1)과 (2)의 합으로 표현할 수 있다
P(A) = P(A ∩ B) + P(A ∩ not B) = P(B) × P(A | B) + P(not B) × P(A | not B)
이 단계에서 잘 짚고 넘어가지 않으면, Bayes 정리에서 헷갈리기 때문에 잘 짚고 넘어가야 한다.
6. Bayes' Theorem
Bayes' Theorem은 Unobservable Event의 Posterior Probability를 추론하기 위한 정리이다. 그리고 그 정리는 조건부 확률을 Multiplication Rule과 Marginal Probability로 풀어 쓴 것에 지나지 않는다. 즉, Conditional Probability는 특정 Unobservable 이벤트와 관련된 어떤 Observable 이벤트가 관측됐을 때, Unobservable한 이벤트가 발생활 확률에 대한 우리의 사전 지식/전문가 지식/믿음의 정도를 업데이트 하는 Logical한 방법이라 할 수 있다.
Bayes' Theorem은 4, 5번의 개념을 직접적으로 이용해서 아래와 같이 표현된다. Unobservable의 Posterior 표현이므로, Conditional Probability에서 B(Unobservable)가 먼저 온다.
- 출발: Conditional Probability
P(B | A) = P(A ∩ B) / P(A) - Marginalize 개념 적용
⇔ P(B | A) = P(A ∩ B) / { P(A ∩ B) + P(A ∩ not B) } - Multiplication Rule 개념 적용
⇔ P(B | A) = P(A ∩ B) / { P(B) × P(A | B) + P(not B) × P(A | not B) } - Multiplication Rule 개념 적용 + 순서만 바꿔서 씀
⇔ P(B | A) = { P(A | B) × P(B) } / { P(A | B) × P(B) + P(A | not B) × P(not B) } - 분모만 간략하게 다시 표현하기
⇔ P(B | A) = { P(A | B) × P(B) } / P(A)
이를 B가 여러 개로 partition 되는 상황으로 확장하면, 아래와 같이 표현할 수 있다.
Bayes' Theorem: The Key to Bayesian Statisitcs
우리는 베이즈 정리를 통해 우리의 믿음(Prior)를 데이터(Evidence)에 의해 업데이트 해 나간다. 이 때 각 확률의 이름과 의미를 아는 것은 베이즈 정리를 이해하는 데에 큰 도움을 준다. Posterior, Prior, Likelihood라는 이름과 의미에 대해 이해해보자..
- Prior: P(B)에 해당하는 개념이다. Unobservable Event가 발생했을 확률에 대한 전문가 지식, 믿음의 정도를 의미한다. 실제 영어로 Belief라는 단어를 사용해서 설명한다.
- Likelihood: P(A | B)에 해당하는 개념이며, 이 확률을 B의 Likelihood라고 부른다. 어찌됐든 A가 발생했을 확률인데 B의 Likelihood라고 불러서 혼란을 야기하는 부분이다. 조건부 확률인만큼, B라는 조건에 의해 좌지우지되는 확률이라서 그렇다고 생각하자. Likelihood of B는 A라는 Event의 발생 여부에 의해 변화하는 B의 Weight라고 생각하자. 무슨 말인지 나도 잘 모르겠지만 어쨋든 베이즈 정리에서 모든 확률은 Unobservable인 B에 있다. 그러니까 어쨋든 B의 Likelihood이다.
- Posterior: P(B | A)에해당하는개념으로, B의 Posterior Probability다. A라는 Event가 발생했다는 것을 알고 있을 때 B에 부여하는 확률이다.
The Bayesian universe
베이즈 정리 개념을 좀 더 잘 이해하기 위해, 어떤 Universe(전체 집합)이 두 개의 차원으로 이루어져 있다고 생각해보자. 그 두 개의 차원은 Observable한 차원과 Unobservable한 차원으로 구성되어 있다. 앞서 사용한 A, B로 표현을 빌리자면, 관측된 Event A의 발생 여부에 따라 나뉘어지는 차원과 관측할 수 없는 B_i들로 구성되어 있는 차원으로 이루어진 것이다.
베이즈 정리에서는 P(A ∩ B_i)를 Prior P(B_i)와 Likelihood P(A | B_i)의 곱으로 표현한다.
A가 발생한 사건에 한해 U를 축소한 Bayesian Universe의 우측 그림을 보자. 우리는 A라는 Event가 발생했다는 것을 알기 때문에 Horizontal한 차원 기준으로는 우리가 어떤 공간에 있는 지 안다. 반면 Vertical 차원에서 우리가 어디 있는 지 알 수 없다. B1~B4 중 어떤 사건이 발생했는지 알 수 없기 때문이다.
Multiplying by constant
모든 Posterior Probability의 합은 1이다. 모든 Posterior를 더하는 것은 Reduced Universe에서 A가 발생할 수 있는 모든 Disjoint한 공간의 확률들을 전부 더하는 것과 같기 때문이다. 확률의 합이 항상 1이기 때문에, 우리는 확률 값을 구할 수 없는 Evidence P(A)의 확률을 구하지 않고, Bayes Theorem의 분자 부분의 확률만 알면 B1~B4 중 어떤 Event의 발생 확률이 가장 높은지 알 수 있다.
posterior ∝ prior × likelihood
7. Assigning Probability
확률을 Assign하는 방법은 두 가지가 있는데, 각각 Long-run relative frequency probability assignment(frequentist statistics)와 Degree of belief probability assignment이다.
- Long-run relative frequency probability assignment(frequentist statistics)
. 실험을 무한히 반복했을 때, 해당 실험에서 특정 이벤트가 나타나는 시간(trial, time)의 비율로 확률을 할당하는 방식
. Unobservable Variable의 값이 주어졌을 때 Random Experiment의 Outcome에 확률 부여하는 방식이다. - Degree of belief probability assignment
. 이전의 실험, 경험을 통해 '이 정도의 확률을 가질 것이다'를 기반으로 한다.
. Bayesian Statistics에서는 parameter(unobservable)를 random variable로 본다.
. Parameter는 관측되지 않기 때문에 Long-run relative frequency에 의해 값을 할당해줄 수 없다.
. 이 때는 Degree of belief에 의해 parameter에 확률을 할당한다.
. 이 값은 실험 전에 세팅되며(초기값), 실험자가 달라지면 초기값도 달라질 수 있다.
. 일반적인 Machine Learning 학습 방법론의 기본 사상과 일치한다.
8. Odds Ratios and Bayes Factor
Bayesian Factor B는, 주어진 데이터에 기존 가설이 얼마나 부합하는지 확인할 수 있는 지표이다.
[Odds]
어떤 Event의 Odds Ratio는 어떤 Event의 complement 확률 대비 event의 확률 비로 표현된다. 말로 풀어쓰려니 더 혼란스러운데, 수식은 아래와 같다.
이를 통해 P(C)의 확률을 Odds로 풀어 쓰면 아래와 같이 나타난다.
[Bayes Factor (B)]
Bayes Factor B는 아래와 같이 정의된다.
이를 아래와 같이 다시 쓸 수 있다고 하는데 이해는 되지 않는다. (D는 Evidence이다)
어쨋든 이해할 수 없게 다시 작성된 수식의 의미는, Event C가 일어나지 않았을 때 Data(Evidence) D를 얻게 될 확률 대비 Event C가 일어났을 때 Data D를 얻게 될 확률이다. B가 1보다 크면, 데이터가 기존의 가설을 지지한다는 의미이다. 반대로 1보다 작으면 데이터가 기존의 가설을 지지하지 않는다는 의미로 해석할 수 있다.