[AI] Clustering (군집화) 개념과 알고리즘 종류

군집 중심점(centroid)라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화기법

선택된 포인트의 평균지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택,

다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행

장점

단점

일반적으로 군집화에서 가장 많이 사용되는 알고리즘

알고리즘이 쉽고 간결

거리기반 알고리즘으로 속성의 개수가 매우 많을수록 군집화 정확도가 떨어짐(PCA 차원감소 적용)

반복을 수행하는데 반복횟수가 많을 경우 매우 느려짐

몇개의 군집을 선택해야할 지 가이드하기가 어려움

K 평균과 유사하지만 거리 중심이 아니라 데이터가 모여있는 밀도가 가장 높은쪽으로 군집 중심점을 이동하면서 군집화를 수행함
일반 업무 기반의 정형 데이터 세트보다 컴퓨터 비전 영역에서 이미지나 영상 데이터에서 특정 개체를 구분하거나 움직임을 추적하는데 뛰어난 역할을 수행하는 알고리즘
이러한 특성 때문에 업무 기반의 데이터 세트보다는 컴퓨터 비전 영역에서 잘 사용됨

장점

단점

데이터 세트의 형태를 특정 형태로 가정한다던가, 특정 분포도 기반의 모델로 가정하지 않기 때문에 좀 더 유연한 군집화 가능

이상치의 영향력 크지 않음

미리 군집의 개수 정할 필요 없음

알고리즘의 수행시간이 오래 걸림

bandwidth의 크기에 따른 군집화 영향도가 매우 크다

GMM 군집화는 군집화를 적용하는 데이터가 여러개의 가우시안분포를 모델을 섞어서 생성된 모델로 가정해 수행하는 방식

Q. 가우시안(Gaussian)분포란?

A. 좌우 대칭형의 bell 형태를 가진 통계학에서 가장 잘 알려진 연속확률함수

GMM은 데이터를 여러개의 가우시안 분포가 섞인것으로 간주 ---> 섞인 데이터 분포에서 개별 유형의 가우시안 분포를 추출한다.
전체 데이터 세트는 서로 다른 정규분포를 가진 여러가지 확률 분포 곡선으로 구성되어 있으며, 정규분포에 기반에 군집화를 수행하는 것이 GMM 군집화 방식
일정한 데이터 세트가 있으면 이를 구성하는 여러개의 정규 분포 곡선 추출 뒤, 개별 데이터가 이 중 어떤 정규분포에 속하는지 결정
이러한 방식을 모수추정이라고 하며 "개별 정규 분포의 평균과 분산", "각 데이터가 어떤 정규 분포에 해당되는지의 확률"을 구하기 위해서 추정한다
GMM은 모수추정을 하기 위해 EM(Expectation and Maximization)방법을 적용하고 있따.

[AI] Regression (회귀) 개념, 분류 (0)	2020.08.07
[AI] Classification (분류) 개념과 알고리즘 종류 (2)	2020.08.07
[AI] 지도학습, 비지도학습, 강화학습(RL) 개념과 차이점 (0)	2020.08.06
[AI] 인공지능 AI, 머신러닝 ML, 딥러닝 DL의 개념, 차이점 (0)	2020.08.06
데이터 분석기법 7가지 (0)	2020.06.02

티스토리툴바