본문 바로가기

Machine Learning7

[PRML] 1.4. The Curse of Dimensionality 앞에서 살펴본 곡선 피팅 문제에서는 입력 변수가 하나였지만, 실제 입력 변수의 종류는 매우 다양하다. 이렇게 고차원 입력 변수를 다루는 것은 패턴 인식에서 중요한 고려 사항이다. 해당 문제를 살펴보기 위해 위 데이터를 예시로 들었다. 위 데이터로 하고자 하는 것은 \(x_{6}\)과 \(x_{7}\)이 있을 때, 해당 데이터가 무슨 Label을 가지는지 분류하는 것이다. Label의 종류는 색으로 나타나있다. 위 그림에서 \(\times\) 표시의 데이터가 새로 들어왔을 때, 해당 데이터를 무슨 Label로 분류할 수 있을지 생각해보자. \(\times\) 주위에 빨간색과 초록색이 있고 파란색을 멀리 떨어져있으므로 빨간색 혹은 초록색일 것이다. 이런 방식으로 새로운 데이터를 분류하기 위한 가장 단순한 접.. 2023. 1. 4.
[PRML] 1.3. Model Selection 앞서 다항식 곡선 피팅의 예시에서 가장 좋은 일반화가 되는 최적의 다항식이 존재한다는 것을 확인하였다. 일반화란 학습 데이터가 아닌 새로운 데이터에 대해 예측 성능을 최적화하는 것이다. 다항식에서는 차수가, 정규화 최소 제곱법의 경우에는 정규화 계수가 매개변수가 되며 매개 변수의 수에 따라 모델의 복잡도가 결정된다. 다양한 매개변수 값 중에서 가장 적합한 모델을 선택해야 한다. 훈련 집합에만 좋은 성능을 보이는 과적합(over-fitting) 문제를 막기 위해서 훈련 직합과 독립적인 검증 집합(validation set)을 구성하여 모델을 매개변수에 따라 비교하고 선택한다. 반복적으로 검증 집합에 대해 모델을 실험하게 되면 검증 집합에도 과적합 될 수 있어 모델의 최종 성능을 판단하기 위한 시험 집합(t.. 2023. 1. 2.
[PRML] 1.2. Probability Theory 패턴 인식에서 불확실성(uncertainty)는 데이터 측정시의 노이즈를 통해서도 발생하고 데이터 집합 수가 제한되어 있다는 점에서도 발생한다. 확률론(probability theory)를 사용한다면 이런 불확실성 속에서 최적의 예측을 할 수 있게 된다. 문제를 해결하기 앞서 합의 법칙(sum rule)과 곱의 법칙(product rule)에 대해 설명한다. (Figure 1.10) 이를 설명하기 위해 왼쪽의 그림을 사용한다. \(x_{i}\)를 값으로 가지는 확률 변수 \(X\)와 \(y_{j}\)를 값으로 가지는 확률 변수 Y가 있다. 총 N개의 변수가 있을 때, \(X=x_{i}\), \(Y=y_{j}\)인 경우의 수는 \(n_{ij}\)로 표현하며 각 행 \(i\)에 있는 포인트 수는 \(c_{i.. 2022. 11. 28.
[PRML] 1.1. Example: Polynomial Curve Fitting PRML 1.1장에서는 개념에서 들어가기 앞서 회귀 문제를 예시로 든다. (Figure 1.2) 훈련 집합 \(x=(x_{1},...,x_{N})^{T}\)와 그에 해당하는 표적값 \(t=(t_{1},...,t_{N})^{T}\)가 주어졌을 때, 왼쪽의 plot은 N=10일 경우의 데이터 plot이다. 표적값 t는 \(sin(2\pi x\)에 가우시안 분포를 가지는 노이즈를 더해서 만들었다. 해당 예시의 목표는 훈련 집합을 사용하여 새로운 입력값 \(\hat{x}\)가 주어졌을 때, 타깃 변수 \(\hat{t}\)를 예측하는 것이다. 이를 위해 아래 다항식을 Fitting하고자 한다. 피팅은 훈련 집합의 표적값들과 함숫값 \(y(x,w)\)와의 오차를 측정하는 오차 함수(error function)를 정.. 2022. 11. 20.