Parametric / Non-parametric Machine Learning
- 참조:
- http://machinelearningmastery.com/parametric-and-nonparametric-machine-learning-algorithms/
- Gareth, Introduction to Stat. Learning, 2013
- Parametric (모수적)
- ML 알고리즘은 기본적으로 학습 데이터로부터 매핑 함수를 학습하는 것임. 이 때, 학습 절차를 단순화하기 위해 여러 가정(assumption)이 전제될 경우가 있을 때(예를 들어, 고정된 숫자의 파라메터로 요약한다던가).
- 로지스틱 회귀, LDA, Perceptron, Naïve Bayes
- 이해하기 쉽고, 학습속도 빠르고, 적은 데이터로도 fit 가능.
- 특정 형식으로 모델이 제한되고, 단순한 문제에만 적용 가능하며, 현실 세계의 문제를 fit하는 데 한계 있음
- Non-parametric (비 모수적)
- 매핑 함수에 대해 strong assumption을 전제하지 않음
- kNN, 결정 트리(CART, C4.5), SVM
- 여러 형태의 함수 형식을 취할 수 있으며, 사전 전제 조건을 많이 설정할 필요없으며, 예측 성능이 높은 편
- 학습에 많은 데이터를 필요로 하며, 상대적으로 학습 속도가 느리며, overfitting 가능성 있음.
Unsupervised Learning
- Unsupervised learning 기법은 Class label이 존재하지 않기 때문에, 유사한 패턴을 가진 것들을 뭉치는(군집 분석) 방식에 이용됨
- Parametric: 혼합모델
- 내포된 클래스-조건적인 밀도(density)를 모수적 밀도의 혼합 모델로 파악하여 모델의 파라미터를 추정하는 방식
- 예: GMM
- Non-parametric: 군집화
- 내포된 density에 대한 어떠한 가정도 하지 않는 대신, 자료를 clustering을 통해 구분
- 즉, 비슷한 성격의 데이터들을 묶어나가는 방식으로, 반복적으로 모델을 수정해나가면서 최적의 군집을 찾음
Clustering
- Unsupervised learning 분야에서 가장 활발히 연구되는 분야
- optimization function을 (1) 거리 기반으로 세우고 그것을 푸는 알고리즘(k-means)과 (2) 확률과 확률분포를 기반으로 세우고 그것을 푸는 알고리즘(GMM, EM)
- 참조 블로그: http://sanghyukchun.github.io/69/
- 예: k-means
- k-means는 데이터들 간의 거리가 가까운 k 개의 중심점(central point)으로 뭉쳐나감
- 안타깝게도 K-means는 global optimum에 수렴하지 않고 local한 optimum에 수렴하므로 initialization에 매우 취약하다는 단점을 갖는다.
$$ J=\sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}\left \| x_n-\mu_k \right \|^2 $$
, where $r_{nk}=1$ (if $k=argmin_{j}\left \| x_n-\mu_j \right \|^2$), $r_{nk}=0$ (otherwise).
Gausian Mixture Model (GMM)
- 가우시안 혼합 모델
- 기존의 가우시안 분포들을 서로 묶어 복합적인 분포(Mixture Distribution)를 표현하고자 함; 여러 개의 가우시안 분포의 선형 결합.
- 일반 가우시안 확률분포는 데이터들의 평균을 중심으로 하나의 그룹으로 unimodel만 가능한 제약이 있으므로, 보다 일반적인 형태를 표현하기 위해, 여러 개의 가우시안을 합하여 만든 모델임
- 즉, 데이터는 여러 군집에 속할 수도 있으며, 각 군집에 속할 확률이 다르다.
- 주어진 데이터가 어디 가우시안에서 생성되었는 지 알 수 있고, 각 가우시안이 선택될 확률과 가우시안들의 파라메터를 추정할 수 있다.
- GMM의 performance measure는 log likelihood function, lnp(X|θ)이며, 주어진 paramter에 대해 데이터 X의 확률을 가장 크게 만드는 parameter를 찾는 것이 목표임
- 참고: MLE (maximum likelihood estimation)
- GMM을 풀기 위한 방안 중의 하나인 EM(Expectation-Maximization) 알고리즘의 적용: EM은 통계적 방법을 이용해서, 군집에 속할 확률이 가장 높은 것들끼리 뭉쳐나감.
- 즉, 주어진 파라미터를 이용해서 가장 expectation이 높은 latent variable 값을 찾아내며, 이를 이용한 값을 maximize하는 파라메터를 찾는다.
- 주어진 데이터를 군집으로 클러스터링하기 때문에, k-means 목적함수를 풀어나가는 방식을 사용 가능; 임의의 중심점을 설정하여, 군집화하고, 다시 중심점을 갱신하여 군집하는 과정을 반복하여, 적당히 수렴할 때까지 수행.
- 참조: http://sanghyukchun.github.io/70/