앞서 다항식 곡선 피팅의 예시에서 가장 좋은 일반화가 되는 최적의 다항식이 존재한다는 것을 확인하였다. 일반화란 학습 데이터가 아닌 새로운 데이터에 대해 예측 성능을 최적화하는 것이다.
다항식에서는 차수가, 정규화 최소 제곱법의 경우에는 정규화 계수가 매개변수가 되며 매개 변수의 수에 따라 모델의 복잡도가 결정된다. 다양한 매개변수 값 중에서 가장 적합한 모델을 선택해야 한다.
훈련 집합에만 좋은 성능을 보이는 과적합(over-fitting) 문제를 막기 위해서 훈련 직합과 독립적인 검증 집합(validation set)을 구성하여 모델을 매개변수에 따라 비교하고 선택한다. 반복적으로 검증 집합에 대해 모델을 실험하게 되면 검증 집합에도 과적합 될 수 있어 모델의 최종 성능을 판단하기 위한 시험 집합(test set)을 구성할 수 있다.
그러나, 실제 경우에는 집합을 나누기 위한 데이터가 충분하지 않고 나누게 되면 학습되는 데이터 양이 적어져 모델이 많은 정보를 내포하지 못할 수 있다. 반대로 검증 집합의 크기가 너무 작으면 예측 성능이 정확하지 않을 수 있다.
이러한 딜레마를 해결할 수 있는 방법 중 하나는 교차 검증법(cross validation)이다.
(Figure 1.18)
전체 데이터를 S개의 집합으로 나누어 S-1/S 비율만큼은 학습에 사용하고 나머지 데이터로 모델을 평가한다.
위 과정을 모든 데이터로 평가할 때까지 반복하는 것이 교차 검증법이다.
데이터가 없을 때에는 S=N으로 하여 하나의 집합을 하나의 데이터로 설정할 수 있다. 이렇게 되면 데이터 하나만 남겨두고 학습하게 되며 이를 leave-one-out 테크닉이라고 한다.
교차 검증법의 단점 중 하나는 S의 수가 늘어남에 따라 모델 훈련 시행 횟수가 늘어난다는 것이다. 여기에 모델의 매개변수도 많을 경우에는, 복잡한 매개변수 조합을 교차 검증법으로 비교한다면 매우 큰 계산 복잡도를 요할 것이다.
교차 검증법이 아닌 훈련 집합만을 활용해서 한 번의 훈련 과정으로 매개변수를 비교할 수 있다면 이상적으로 모델을 평가할 수 있을 것이다. 이를 위해서는 훈련 집합만을 학습하여 나타나는 과적합으로 인한 편향에 자유로운 성능 척도가 필요하다.
다양한 정보 기준(information criteria)들이 최대 가능도 방법의 편향 문제의 대안으로 제시되었고 이는 복잡한 모델에서 과적합이 일어나지 않도록 penalty 항을 추가하는 방식이었다. 예를 들어 아카이케의 정보량 기준(akaike information crierition, AIC)가 있다.
\(\text{ln}p(\mathcal{D}|\mathbf{w}_{ML})\)은 피팅된 로그 가능도이며 \(M\)은 모델의 수정 가능한 매개변수 수이다. AIC의 약간 변형된 버전인 베이지안 정보 기준(Bayesian information criterion, BIC)도 존재하며 해당 내용은 4.4.1절에서 논의할 것이다.
해당 기준들은 매개변수의 불확실성을 고려하지 않으며(점 추정) 너무 간단하게 모델을 선택한다. 3.4절에서는 베이지안 접근법을 바탕으로 복잡하고 자연스럽게 유도해볼 것이다.
Reference: Pattern Recognition and Machine Learning
'Machine Learning > PRML' 카테고리의 다른 글
[PRML] 1.4. The Curse of Dimensionality (0) | 2023.01.04 |
---|---|
[PRML] 1.2. Probability Theory (1) | 2022.11.28 |
[PRML] 1.1. Example: Polynomial Curve Fitting (0) | 2022.11.20 |
댓글