본문 바로가기

분류 전체보기20

[PRML] 1.3. Model Selection 앞서 다항식 곡선 피팅의 예시에서 가장 좋은 일반화가 되는 최적의 다항식이 존재한다는 것을 확인하였다. 일반화란 학습 데이터가 아닌 새로운 데이터에 대해 예측 성능을 최적화하는 것이다. 다항식에서는 차수가, 정규화 최소 제곱법의 경우에는 정규화 계수가 매개변수가 되며 매개 변수의 수에 따라 모델의 복잡도가 결정된다. 다양한 매개변수 값 중에서 가장 적합한 모델을 선택해야 한다. 훈련 집합에만 좋은 성능을 보이는 과적합(over-fitting) 문제를 막기 위해서 훈련 직합과 독립적인 검증 집합(validation set)을 구성하여 모델을 매개변수에 따라 비교하고 선택한다. 반복적으로 검증 집합에 대해 모델을 실험하게 되면 검증 집합에도 과적합 될 수 있어 모델의 최종 성능을 판단하기 위한 시험 집합(t.. 2023. 1. 2.
Skill Rating: Elo 체스나 특정 온라인 게임에서는 플레이어의 실력을 나타내는 지표를 사용한다. 해당 지표는 단순히 실력을 나타내는 것 뿐만 아니라 비슷한 실력 지표를 갖는 사람끼리 매칭시키는데에도 사용된다. ​ Elo는 두 플레이어의 Rating 차이를 통해 예상 승률을 추정하고 실제 결과에 따라 패자의 Rating 일부를 승자의 Rating에 더한다. Rating 차이가 클 때, Rating이 높은 플레이어가 이겼다면 적은 Rating을 얻고 Rating이 낮은 플레이어가 이겼다면 예상 승률을 뒤집는 결과를 낸 것이므로 많은 Rating을 얻는다. ​ Elo Rating을 통해 예상 승률을 추정하는 방식은 아래와 같다. EA=11+10(RBRA)/400 $$ \begi.. 2023. 1. 2.
[PRML] 1.2. Probability Theory 패턴 인식에서 불확실성(uncertainty)는 데이터 측정시의 노이즈를 통해서도 발생하고 데이터 집합 수가 제한되어 있다는 점에서도 발생한다. 확률론(probability theory)를 사용한다면 이런 불확실성 속에서 최적의 예측을 할 수 있게 된다. 문제를 해결하기 앞서 합의 법칙(sum rule)과 곱의 법칙(product rule)에 대해 설명한다. (Figure 1.10) 이를 설명하기 위해 왼쪽의 그림을 사용한다. xi를 값으로 가지는 확률 변수 Xyj를 값으로 가지는 확률 변수 Y가 있다. 총 N개의 변수가 있을 때, X=xi, Y=yj인 경우의 수는 nij로 표현하며 각 행 i에 있는 포인트 수는 \(c_{i.. 2022. 11. 28.
[PRML] 1.1. Example: Polynomial Curve Fitting PRML 1.1장에서는 개념에서 들어가기 앞서 회귀 문제를 예시로 든다. (Figure 1.2) 훈련 집합 x=(x1,...,xN)T와 그에 해당하는 표적값 t=(t1,...,tN)T가 주어졌을 때, 왼쪽의 plot은 N=10일 경우의 데이터 plot이다. 표적값 t는 sin(2πx에 가우시안 분포를 가지는 노이즈를 더해서 만들었다. 해당 예시의 목표는 훈련 집합을 사용하여 새로운 입력값 x^가 주어졌을 때, 타깃 변수 t^를 예측하는 것이다. 이를 위해 아래 다항식을 Fitting하고자 한다. 피팅은 훈련 집합의 표적값들과 함숫값 y(x,w)와의 오차를 측정하는 오차 함수(error function)를 정.. 2022. 11. 20.