Life and computing: EM

레이블이 EM인 게시물을 표시합니다. 모든 게시물 표시

레이블이 EM인 게시물을 표시합니다. 모든 게시물 표시

2017년 2월 27일 월요일

Parametric, Clustering, GMM, EM, kNN

https://wikidocs.net/7679

Parametric / Non-parametric Machine Learning

참조:

http://machinelearningmastery.com/parametric-and-nonparametric-machine-learning-algorithms/
Gareth, Introduction to Stat. Learning, 2013

Parametric (모수적)

ML 알고리즘은 기본적으로 학습 데이터로부터 매핑 함수를 학습하는 것임. 이 때, 학습 절차를 단순화하기 위해 여러 가정(assumption)이 전제될 경우가 있을 때(예를 들어, 고정된 숫자의 파라메터로 요약한다던가).

로지스틱 회귀, LDA, Perceptron, Naïve Bayes
이해하기 쉽고, 학습속도 빠르고, 적은 데이터로도 fit 가능.
특정 형식으로 모델이 제한되고, 단순한 문제에만 적용 가능하며, 현실 세계의 문제를 fit하는 데 한계 있음

Non-parametric (비 모수적)

매핑 함수에 대해 strong assumption을 전제하지 않음

kNN, 결정 트리(CART, C4.5), SVM
여러 형태의 함수 형식을 취할 수 있으며, 사전 전제 조건을 많이 설정할 필요없으며, 예측 성능이 높은 편
학습에 많은 데이터를 필요로 하며, 상대적으로 학습 속도가 느리며, overfitting 가능성 있음.

Unsupervised Learning

Unsupervised learning 기법은 Class label이 존재하지 않기 때문에, 유사한 패턴을 가진 것들을 뭉치는(군집 분석) 방식에 이용됨

Parametric: 혼합모델

내포된 클래스-조건적인 밀도(density)를 모수적 밀도의 혼합 모델로 파악하여 모델의 파라미터를 추정하는 방식
예: GMM

Non-parametric: 군집화

내포된 density에 대한 어떠한 가정도 하지 않는 대신, 자료를 clustering을 통해 구분
즉, 비슷한 성격의 데이터들을 묶어나가는 방식으로, 반복적으로 모델을 수정해나가면서 최적의 군집을 찾음

Clustering

Unsupervised learning 분야에서 가장 활발히 연구되는 분야
optimization function을 (1) 거리 기반으로 세우고 그것을 푸는 알고리즘(k-means)과 (2) 확률과 확률분포를 기반으로 세우고 그것을 푸는 알고리즘(GMM, EM)
참조 블로그: http://sanghyukchun.github.io/69/
예: k-means

k-means는 데이터들 간의 거리가 가까운 k 개의 중심점(central point)으로 뭉쳐나감
안타깝게도 K-means는 global optimum에 수렴하지 않고 local한 optimum에 수렴하므로 initialization에 매우 취약하다는 단점을 갖는다.

$$ J=\sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}\left \| x_n-\mu_k \right \|^2 $$

, where $r_{nk}=1$ (if $k=argmin_{j}\left \| x_n-\mu_j \right \|^2$), $r_{nk}=0$ (otherwise).

Gausian Mixture Model (GMM)

가우시안 혼합 모델

기존의 가우시안 분포들을 서로 묶어 복합적인 분포(Mixture Distribution)를 표현하고자 함; 여러 개의 가우시안 분포의 선형 결합.

일반 가우시안 확률분포는 데이터들의 평균을 중심으로 하나의 그룹으로 unimodel만 가능한 제약이 있으므로, 보다 일반적인 형태를 표현하기 위해, 여러 개의 가우시안을 합하여 만든 모델임

즉, 데이터는 여러 군집에 속할 수도 있으며, 각 군집에 속할 확률이 다르다.
주어진 데이터가 어디 가우시안에서 생성되었는 지 알 수 있고, 각 가우시안이 선택될 확률과 가우시안들의 파라메터를 추정할 수 있다.

GMM의 performance measure는 log likelihood function, lnp(X|θ)이며, 주어진 paramter에 대해 데이터 X의 확률을 가장 크게 만드는 parameter를 찾는 것이 목표임

참고: MLE (maximum likelihood estimation)

GMM을 풀기 위한 방안 중의 하나인 EM(Expectation-Maximization) 알고리즘의 적용: EM은 통계적 방법을 이용해서, 군집에 속할 확률이 가장 높은 것들끼리 뭉쳐나감.

즉, 주어진 파라미터를 이용해서 가장 expectation이 높은 latent variable 값을 찾아내며, 이를 이용한 값을 maximize하는 파라메터를 찾는다.

주어진 데이터를 군집으로 클러스터링하기 때문에, k-means 목적함수를 풀어나가는 방식을 사용 가능; 임의의 중심점을 설정하여, 군집화하고, 다시 중심점을 갱신하여 군집하는 과정을 반복하여, 적당히 수렴할 때까지 수행.

참조: http://sanghyukchun.github.io/70/

피드 구독하기: 글 (Atom)