본문 바로가기
Machine Learning/PRML

[PRML] 1.2. Probability Theory

by 두우우우움 2022. 11. 28.

  패턴 인식에서 불확실성(uncertainty)는 데이터 측정시의 노이즈를 통해서도 발생하고 데이터 집합 수가 제한되어 있다는 점에서도 발생한다. 확률론(probability theory)를 사용한다면 이런 불확실성 속에서 최적의 예측을 할 수 있게 된다.


 

 

 

 문제를 해결하기 앞서 합의 법칙(sum rule)과 곱의 법칙(product rule)에 대해 설명한다. 

 

(Figure 1.10)

 이를 설명하기 위해 왼쪽의 그림을 사용한다. \(x_{i}\)를 값으로 가지는 확률 변수 \(X\)와 \(y_{j}\)를 값으로 가지는 확률 변수 Y가 있다. 

 

 총 N개의 변수가 있을 때, \(X=x_{i}\), \(Y=y_{j}\)인 경우의 수는 \(n_{ij}\)로 표현하며 각 행 \(i\)에 있는 포인트 수는 \(c_{i}\)로, r각 열에 있는 포인트 수는 \(r_{j}\)로 표현된다.

 

 

 

\(X\)가 \(x_{i}\), \(Y\)가 \(y_{j}\)일 확률은 \(p(X=x_{i},Y=y_{j}\)로 적고 이는 \(X=x_{i}\), \(Y=y_{j}\)일 결합 확률(joint probability)라 한다.

(1.5)

 

 동일한 방식으로 \(Y\)값과 무관하게 \(X\)가 \(x_{i}\) 값을 가질 확률을 \(P(X=x_{i})\)로 나타낼 수 있다.

(1.6)

 

 Figure 1.10에서 \(i\)열에 있는 포인트 수는 해당 열의 각 칸에 있는 포인트 수의 합이다. 이는 \(c_{i}=\sum_{j} n_{ij}\)로 표현 가능하며 아래의 식으로 나타낼 수 있으며 이를 확률의 합의 법칙(sum rule)이다. 이렇게 도출한 \(P(X=x_{i})\)는 주변 확률(marginal probability)이라 한다.

(1.7)

 

 \(X=x_{i}\)인 사례들 중 \(Y=y_{j}\)인 사례들의 비율은 \(p(Y=y_{j}|X=x{i}\)로 나타낼 수 있고 이를 조건부 확률(conditional probability)라고 한다.

(1.8)

 

 식 1.5, 1.6, 1.8을 통해서 결합 확률을 조건부 확률로 나타낼 수 있으며 이를 확률의 곱의 법칙(product rule)이라 한다.

(1.9)

 

 합의 법칙과 곱의 법칙을 간단한 표현법으로 나타내면 아래와 같이 정리할 수 있다.

(1,10), (1.11)

 

\(p(X,Y)=p(X)p(Y)\)처럼 각각의 주변 확률을 곱한 것이 결합 확률과 같을 경우, 두 확률 변수를 독립적(independent)라고 한다. 곱의 법칙에 따라 \(p(Y|X)=p(Y)\)가 되기 때문에 \(Y\)가 주어졌을 때나 아닐 때나 \(X\)의 분포는 같기 때문에 독립이라고 한다.


 

 

 

1.2.1. Probability densities

 위에서는 이산적인 사건에 대한 확률을 알아보았고 이제 연속적인 변수의 확률을 알아볼 것이다. 변수 \(x\)가 \((x,x+\delta x\) 구간에서 값을 갖고 그 변수의 확률이 \(p(x)\delta x (\delta x \rightarrow 0)\)이라면, \(p(x)\)를 \(x\)의 확률 밀도(probability density)라 한다. 이 때 \(x\)가 \((a,b)\) 구간 사이의 값을 가질 확률은 아래와 같다.

(1.24)

 확률은 양의 값을 가지고 합이 1이기 때문에 확률 밀도 함수는 아래의 조건을 만족시켜야 한다.

(1.25), (1.26)

 

 확률 분포 함수는 야코비안 인자(Jacobian factor)로 인해 비선형 변수 변환 시 일반적인 함수와 다른 방식으로 변환한다. \(x=g(y)\)의 변수 변환에서 확률 분포는 아래와 같다.

(1.27)

 \(p_{x}(x)\)를 통해 새로운 확률 밀도 함수 \(p_{y}(y)\)를 나타낼 수 있고 \((x,x+\delta x\)에 속하는 관찰값은 \((y,y+\delta y)\)로 변환될 것이다. \(\delta x\)가 매우 작을 때, \(p_{x}(x) \delta x \simeq p_{y}(y) \delta y\)다.

 

 추가적으로 1.27 식을 증명해보자. \(x=g(y)\)에서 \(x\)와 \(y\)가 1:1 대응일 때, 역함수는 \(y=g^{-1}(x)\)이다. 

$$ F_{y}(y) = P(Y \leq y) = P(g^{-1}(x) \leq y) = P(x \leq g(y)) = F_{x}(g(y)) $$
$$ f_{y}(y) = \frac{\partial}{\partial y} F_{Y}(y) = \frac{\partial}{\partial y} F_{x}(g(y)) = f_{x}(g(y))|{g}'(y)| $$

 위 과정을 통해 식 1.27을 증명할 수 있으며 \(|{g}'(y)|\)가 야코비안 인자이다. 위 과정은 \(x=g(y)\)가 단조 증가 함수일 때의 증명이고 단조 감소일 때는 \(F_{y}(y) = 1-F_{x}(g(y))\)가 되어 야코비안 인자에 절댓값이 적용된다. 

 야코비안 인자는 다변량의 변수 변환에도 적용될 수 있다.

 

\(x\)가 (\(-\infty, z)\) 범위에 속할 확률은 누적 분포 함수(cumulative distribution function)으로 표현된다.

(1.28)

 

 또한, 확률 밀도에도 합의 법칙, 곱의 법칙, 베이지안 정리를 적용할 수 있다.

(1.31), (1.32)


 

 

 

1.2.2. Expectations and covariances

 이산 분포의 경우(1.33)와 연속 변수의 경우(1.34), 기댓값(expectation)은 다음과 같다.

(1.33)
(1.34)

 

 이를 조건부 분포에 적용하여 조건부 기댓값(conditional expectation)을 계산할 수 있다.

(1.37)

 

\(f(x)\)의 분산(variance)은 다음과 같이 정의된다. 분산은 \(f(x)\)가 평균값으로부터 얼마나 멀리 분포되어 있는지를 나타낸다. 분산의 식을 전개하여 \(f(x)\)와 \(f(x)^{2}\)의 기댓값으로 표현할 수 있다.

(1.38)
(1.39)

 

 \(Var(X)=E[(X-E[X])^{2}]=E[X^{2}]-E[X]^{2}\)을 증명해보자. 
$$ E[(X-E[X])^{2}] = E[X^{2}-2XE[X]+E[X]^{2}] $$ $$ \qquad\qquad\qquad\qquad\quad\;\;\; = E[X^{2}]-2E[XE[X]]+E[E[X]^{2}] $$ \(E[X]\)는 평균값으로 상수로 취급할 수 있다.
$$\qquad\qquad\qquad\qquad\quad\; = E[X^{2}]-2E[X] \cdot E[X]+E[X]^{2}  $$ $$\qquad\;\; = E[X^{2}] - E[X]^{2} $$

 

 

 확률 변수 \(x\)와 \(y\)에 대한 공분산(covariance)은 다음과 같이 정의된다.

(1.41)


 

 

 

1.2.3. Bayesian probabilities 

 위에서 다른 내용들은 확률을 반복 가능한 가선의 빈도수의 관점에서 살펴보았고 이를 고전적(classical) 또는 빈도적(frequentist)라고 한다. 이 관점보다 더 포괄적인 베이지안(Bayesian) 관점을 이용하여 확률을 이용해서 불확실성을 정량화할 수 있다.

 

 예를 들어, "북극의 빙하가 이번 세기말까지 다 녹아 없어진다"는 사건은 주사위 굴리기처럼 여러 번 반복할 수 없기 때문에 빈도적인 확률을 정의할 수 없다. 이런 사건에는 "북극 얼음이 속는 속도" 같은 증거가 있으며 녹는 속도에 대해 가스 배출량을 줄이는 노력을 통해 새로운 증거를 추가할 수 있다. 이런 불확실성 속에서 새로운 증거를 통해 불확실성을 수정하고 정량화하는 방법론이 베이지안 해석이다.

 

 베이지안 정리는 관측값들을 이용해서 사전 확률을 사후 확률로 바꾸는 역할을 했고 이는 다항식 곡선 피팅 예시에서 매개변수 \(w\)를 추론하는 데에도 비슷한 방식을 사용할 수 있다.

(1.43)

 데이터 관측 전 \(w\)에 대한 우리의 가정을 사전 확률 분포 \(p(w)\)로 표현할 수 있고 관측된 데이터 \(D=\{t_{1},...,t_{N}\}\)은 조건부 확률 \(p(D|w)\)로 작용하게 된다. \(D\)를 관측한 후 \(w\)에 대한 불확실성을 사후 확률 \(p(w|D)\)로 표현할 것이다.

 

 베이지안 정리의 \(p(D|w)\)는 가능도 함수(likelihood function)라고 불린다. 가능도 함수는 \(w\)에 대해 관측된 데이터가 얼마나 그렇게 나타날 가능성이 있는지 표현한다. 가능도 함수는 \(w\)에 대한 확률 분포가 아니기 때문에 이를 적분하여도 1이 될 필요가 없다.

(1.44)

 식 1.44의 사후 확률 분포, 가능도 함수, 사전 확률 분포는 모두 \(w\)에 대한 함수이다. 식 1.43의 \(p(D)\)는 사후 분포의 적분값이 1이 되도록 하기 위한 정규화 상수이고 이는 사전 확률과 가능도 함수로 표현할 수 있다.

(1.45)

 

 

 가능도 함수는 베이지안 확률 관점빈도적 확률 관점에서 모두 중요한 역할을 한다.

 

 빈도적 확률 관점에서 \(w\)는 고정된 매개변수이기 때문에 가능도 함수 \(p(D|w)\)를 최대화하는 값으로 \(w\)를 선택하고 이를 최대 가능도(maximum likelihood)라고 한다. 머신 러닝에서는 음의 로그 가능도 함숫값을 오차 함수(error function)이라고 하며 이 오차 함수를 최소화하는 것과 최대 가능도와 같다. (음의 로그이기 때문에)

 

 반면, 베이지안 확률 관점에서는 \(w\)를 고정된 값을 보지 않기 때문에 \(p(w)\)가 추론 과정에서 사용된다. 따라서 추론 과정에서 자연스럽게 사전 지식이 포함된다. 예를 들어 세 번 던진 동전이 모두 앞면이 나왔을 때, 빈도적인 최대 가능도 추정에서 앞으로 앞면이 나올 확률은 1일 것이다. 그러나 베이지안 접근에서 합리적인 사전 확륭을 사용한다면 극단적인 결론이 나오지 않을 것이다.


 

 

 

1.2.4. The Gaussian distribution

 가우시안 분포(Gaussian distribution)는 정규 분포(Normal distribution)라고도 불리며 \(x\)에 대한 가우시간 분포는 다음과 같다.

(1.46)

 가우시간 분포는 평균(mean)인 \(\mu\)와 분산(variance)인 \(\sigma ^{2}\)에 의해 통제된다. 분산의 제곱근인 \(\sigma\)는 표준 편차(standard deviation)라고 불리고 분산의 역수인 \(\beta = 1/\sigma ^{2}\)은 정밀도(precision)라 한다.

 

 가우시간 분포의 도식과 성질은 다음과 같다.

(Figure 1.13)
(1.48)
(1.49)
(1.50)
(1.51)

 이러한 성질에 대한 증명은 이 글에선 다루지 않는다. (실제 찾아보며 해보시길 추천합니다.)

 

 

 연속 변수로 이루어진 \(D\)차원 벡터 \(x\)에 대한 가우시간 분포는 다음과 같다.

(1.52)

 \(D\)차원 벡터 \(\mu\)는 평균값, \(D \times D\) 행렬 \(\Sigma\)는 공분산이라 한다. \(|\Sigma |\)는 \(\Sigma\)의 행렬식이다. 

 

데이터 집합으로부터 매개변수 \(\mu\)와 \(\sigma\)를 결정하는 과정에 대해 알아보자. 관측된 데이터 \(\textbf{x} = (x_{1},...,x_{N})^{T}\)는 평균괎 \(\mu\)와 분산 \(\sigma ^{2}\)를 가지는 가우시간 분포에서 독립적으로 추출되었다고 가정한다. 같은 분포에서 독립적으로 추출된 관측값들을 독립적이고 동일하게 분포(independent and identically distributed, \(i.i.d\))되었다고 한다.

 

 독립된 독립 사건의 결합 확률은 각 사건의 주변 확률 곱이다. 따라서 \(\mu\)와 \(\sigma ^{2}\)가 주어졌을 때, \(i.i.d\)인 데이터 집합 \(\textbf{x}\)의 조건부 확률은 다음과 같다.

(1.53)

 이는 가우시간 분포의 가능도 함수에 해당한다.

 

 관측된 데이터 집합을 통해 확률 분포의 매개변수를 결정하는 방법 중 하나는 가능도 함수를 최대화하여 매개변수를 찾는 최대 가능도이다. 가능도를 최대화하기 위해 가능도 함수에 로그를 취한다. 로그 함수는 단조 증가이기 때문에 로그를 취해서 로그 가능도 함수를 최대화하는 것엔 변함이 없지만, 증며이안 수치적인 측면에서 도움이 된다. 로그 가능도 함수는 다음과 같다.

(1.54)

 

 미분을 통해 \(\mu\)와 \(\sigma^{2}\)에 대해 로그 가능도 함수의 최대 가능도 해(\(\mu _{ML}\), \(\sigma_{ML}^{2}\))를 찾을 수 있다.

(1.55)
(1.56)

 이는 바로 관찰된 값의 평균인 표본 평균(sample mean)이고 이에 대해 계산된 표본 분산(sample variance)이다.

 

 

 최대 가능도 해인 \(\mu _{ML}\)와 \(\sigma_{ML}^{2}\)은 데이터 집합들의 함수이다. 각 데이터 집합의 값에 대해 이들의 기댓값을 고려해보면 다음과 같이 유도할 수 있다.

(1.57), (1.58)

 평균적으로 최대 가능도 추정을 통해 평균은 올바르게 구할 수 있지만, 분산은 \((N-1)/N\)만큼 과소평가하게 된다. 관측값의 개수인 \(N\)이 커질수록 최대 가능도 해에서의 편향치는 점점 줄어들고 \(N \rightarrow \infty\)에는 최대 가능도 해의 분산이 원 분포의 분산과 같아진다. 실제 \(N\)이 아주 작은 경우에만 이런 편향(bias) 문제가 크게 일어나며 이 문제는 다항식 곡선 피팅에서의 과적합 문제의 근본적인 원인에 해당한다.


 

 

 

1.2.5. Curve fitting re-visited

 앞서 다항식 곡선 피팅 문제를 빈도적인 오차 최소화 측면에서 살펴보았다. 여기서는 이 문제를 확률적 측면에서 살펴보며 베이지안 해결법에 대한 통찰을 얻을 것이다.

 

 곡석 피팅 문제의 목표는 N개의 입력값 \(\textbf{x}=(x_{1},...,x_{N})^{T}\)과 표적값 \(\textbf{t}=(t_{1},...,t_{N})^{T}\)가 주어진 상황에서 새로운 입력 변수가 주어졌을 때, 해당 입력에 대한 타깃 변수를 예측하는 것이다. 이전에는 \(t\)값이 하나의 상수였다면 여기에서 \(t\)값은 \y(x,\textbf{w})\)를 평균으로 하는 가우시간 분포를 가진다고 가정한다. 확률 분포를 이용하여 타깃 변수에 대한 불확실성을 표현한 것이다.

(1.60)

 여기서 \(\beta\)는 정밀도로 분포의 분산의 역수이다. 이를 도식화하여 나타내면 다음과 같다.

(Figure 1.16)

 다항식 곡선 \(y(x,\textbf{w})\)는 특정 포인트 \(x_{0}\)에서 \(y(x_{0},\textbf{w})\)를 평균으로 하는 가우시간 분포 \(p(t|x_{0},w,\beta )\)를 갖는다.

 

 여기서 훈련 집합 \(\{\textbf{x} , \textbf{t}\}\)를 바탕으로 최대 가능도 방법을 통해 매개 변수 \(\textbf{w}\)와 \(\beta\)를 구해볼 것이다. 

 만약 데이터가 분포에서 독립적으로 추출되었다고 가정하면 가능도 함수는 다음과 같다.

(1.61)

 

 앞의 과정과 마찬가지로 가능도 함수에 로그를 취해 편리하게 최댓값을 구한다.

(1.62)

 

 위 식을 최대화하기 위해 불필요한 항과 계수를 없애면 결국 1.1장의 제곱합 오차 함수를 최소화하는 것과 같다는 것을 유도할 수 있다.

(1.2)

 

 마찬가지로 \(\beta\)에 대해서 최대 가능도 함수를 구할 수 있다. 이는 \(\textbf{w}_{ML}\)을 먼저 구한 후 구할 수 있다.

(1.63)

 

 이렇게 구한 \(\textbf{w}\)와 \(\beta\)를 바탕으로 새로운 변수 \(x\)에 대해 예측값을 구할 수 있다. 예측값을 이전과 같이 하나의 점 추정값이 아닌 \(t\)에 대한 예측 분포(predictive distribution)로 표현된다.

(1.64)

 

 베이지안 방식을 적용하기 위해 다음과 같은 단순화된 형태의 다항 계수 \(\textbf{w}\)의 사전 분포(가우시안 분포)를 도입할 것이다. 

(1.65)

위 식에서 \(\alpha\)는 분포의 정밀도이며 \(M+1\)은 \(M\)차수 다항식 벡터 \(\textbf{w}\)의 원소의 개수이다. \(\alpha\)와 매개변수(\(\textbf{w}\)의 분포를 제어하는 변수를 초매개변수(hyperparameter)라 한다.

 

 베이지안 정리에 따라 \(\textbf{w}\)의 사후 분포는 사전 분포와 가능도 함수의 곱에 비례한다.

(1.66)

 위에서 사후 분포를 최대화하는 방식으로 \(\textbf{w}\)를 결정할 수 있고 이를 최대 사후 분포(maximum posterior, MAP)라 한다. 가능도 함수인 식 1.62와 사전 분포인 식 1.65를 결합하여 최댓값을 찾는 것에 음의 로그를 취하면 식 1.67의 최솟값을 찾는 것과 동일하다. 

(1.67)

 이렇게 사후 분포를 최대화하는 것은 1.1장에서 정규화된 제곱합 오차 함수를 최소화하는 것과 동일함을 확인할 수 있다. (\(\lambda = \alpha / \beta\))

(1.4)


 

 

 

1.2.6. Bayesian curve fitting

 위 곡선 피팅에서 사전 분포 \(p(\mathbf{w}|\alpha)\)를 포함시켰지만, 여전히 \(\mathbf{w}\)에 대해 점 추정을 한 것이기 때문에 베이지안 방법론을 사용한다고 할 수 없다.

 베이지안 방법론을 사용하기 위해선 일관적으로 합의 법칙과 곱의 법칙을 적용해야 한다.

 

 곡선 피팅 문제의 목표인 \(\mathbf{x}\)와 \(\mathbf{t}\)가 주어진 상황에서 새로운 변수 \(x\)에 대한 표적값을 예측하기 위해 예측 분포 \(p(t|x,\mathbf{x},t)\)를 구할 것이다. 여기서 가능도 분포의 정밀도 \(\beta\)와 사전 분포의 정밀도 \(\alpha\)는 고정되어 있다고 가정한다.

 합의 법칙과 곱의 법칙을 반복적으로 사용하는 베이지안 방법에서 예측 분포는 다음과 같이 나타낼 수 있다.

(1.68)

 

 여기서 \(p(t|x,\mathbf{w})\)는 식 1.60에서 주어진 가능도 분포이며 \(p(w|\mathbf{x},\mathbf{t})\)는 식 1.66을 정규화하여 얻을 수 있는 매개변수에 대한 사후 분포이다.

 

 가능도 분포 \(p(t|x,\mathbf{w})\)와 사후 분포  \(p(w|\mathbf{x},\mathbf{t})\)가 가우시안 분포를 따르는 상황에서 식 1.68의 적분을 시행하면 예측 분포 \(p(t|x,\mathbf{t},t)\)도 가우시안으로 표현할 수 있다.

(1.69)
(1.70), (1.71)
(1.72)

 

 예측 분포(식 1.69)의 평균과 분산은 식 1.70, 식1.71과 같고 분산의 \(S\)는 식 1.72과 같다. 식 1.72에서 \(\mathbf{I}\)는 단위 행렬이며 \(\phi(x)\)는 각각의 원소가 \(i=0,...,M\)에 대해 \(\phi_{i}(x)=x^{i}\)인 벡터이다.

 

 예측 분포의 평균과 분산은 \(x\)에 종속되어 있다. 분산의 첫 번째 항에는 타겟 변수의 대한 분포(식 1.60)의 불확실성을 나타내는 \(\beta^{-1}\)가 표현되어 있고 이는 식 1.64의 \(\beta_{ML}^{-1}\)로 표현할 수 있다. 두 번째 항의 \(\mathbf{S}\)는 \(\mathbf{w}\)의 불확실성(\(\alpha\))을 나타낸다.

 

(Figure 1.17)

 위 Plot의 빨간색 선은 예측 분포의 평균값을 통해 \(\mathbf{w}\)를 점 추정한 곡선이고 녹색은 \(\alpha=5\times 10^{-1}\)과 \(\beta=11.1\)을 사용하여 베이지안 방법의 곡선 피팅을 한 곡선이다.


 

 

 

Reference: Pattern Recognition and Machine Learning

 

'Machine Learning > PRML' 카테고리의 다른 글

[PRML] 1.4. The Curse of Dimensionality  (0) 2023.01.04
[PRML] 1.3. Model Selection  (0) 2023.01.02
[PRML] 1.1. Example: Polynomial Curve Fitting  (0) 2022.11.20

댓글