[PRML] 1.1. Example: Polynomial Curve Fitting

PRML 1.1장에서는 개념에서 들어가기 앞서 회귀 문제를 예시로 든다.

(Figure 1.2)

훈련 집합 \(x=(x_{1},...,x_{N})^{T}\)와 그에 해당하는 표적값 \(t=(t_{1},...,t_{N})^{T}\)가 주어졌을 때, 왼쪽의 plot은 N=10일 경우의 데이터 plot이다.

표적값 t는 \(sin(2\pi x\)에 가우시안 분포를 가지는 노이즈를 더해서 만들었다.

해당 예시의 목표는 훈련 집합을 사용하여 새로운 입력값 \(\hat{x}\)가 주어졌을 때, 타깃 변수 \(\hat{t}\)를 예측하는 것이다. 이를 위해 아래 다항식을 Fitting하고자 한다.

피팅은 훈련 집합의 표적값들과 함숫값 \(y(x,w)\)와의 오차를 측정하는 오차 함수(error function)를 정의하고 이를 최소화하는 방식을 사용할 수 있다. 대표적인 오차 함수 중 하나는 표적값과 예측값의 차이를 제곱하여 합산하는 것(1.2)이다.

위 오차 함수는 이차 다항식의 형태를 지니고 있기 때문에 \(w\)에 대해 미분하면 선형식이 나온다. 따라서 이 함수를 최소화하는 \(w\) 값을 찾아낼 수 있다.

여전히 차수 \(M\)을 경헝하는 문제가 남아있고 이 차수를 결정하는 과정을 모델 비교(model comparison) 혹은 모델 결정(model selection)이라고 한다.

위 Polt에서 확인할 수 있듯이 삼차(\(M=3\)) 다항식의 경우, \(sin(2 \pi x)\)를 가장 잘 표현하고 차수를 더 높일 경우(\(M=9\)) 훈련 집합에 대해 완벽하게 Fitting된다. 이 경우 오차 함숫값은 0을 가지지만, 심하게 진동하여 \(sin(2 \pi x)\)를 표현하지 못하며 이를 과적합(over-fitting)이라 한다.

이 예시의 목표를 위해서는 새로운 데이터에 대해 정확한 결괏값을 예측할 수 있어야 한다. 이를 위해 시험 집합을 따로 분리하여 평균 제곱근 오차(root mean square error, RMS error)를 차수에 따라 비교해보았다.

평균 제곱근 오차는 위에서 정의한 오차 함수에 N을 나누어 데이터 사이즈에 의존적이지 않게 한다.

(Figure 1.5)

차수가 \(3\leqslant M \leqslant 8\)일 때, 시험 집합의 오차가 가장 작기에 일반화가 가장 잘 되었다고 할 수 있다.

과적합 문제를 해결하는 가장 간단한 방법은 훈련 데이터의 크기를 증가시키는 것이다. 좋은 모델을 훈련시키기 위해서는 모델의 매개변수 개수에 일정 숫자(5나 10)를 곱한 것 이상의 데이터가 필요하다고 한다.

과적합 문제를 해결하기 위해 자주 사용되는 또 하나의 기법은 정규화(regularization)이다. 식 1.2의 오차 함수에 계수의 크기가 커지는 것을 막기 위한 페널티항을 추가하는 것이다.

\(||w||^{2} = w^{T}w = w_{0}^{2}+w_{1}^{2}+...+w_{M}^{2}\) 이며 \(\lambda\)로 정규화항의 상대적 중요도를 설정한다. 타깃 변수의 원점이 무엇이냐에 따라 결과가 바뀌는 것을 막기 위해 \(w_{0}\)을 정규화항에서 제외하기도 하고 별도의 항을 만들기도 한다.

해당 방법 자체가 계수의 크기를 수축시키기 때문에 수축법(shrinkage method)라고 하며, 이차 형식(quadratic) 정규화는 리지 회귀(ridge regression)이라고 한다.