군집 평가지표
군집화는 '정답'이 없는 비지도 학습이기 때문에, 생성된 군집이 얼마나 논리적으로 타당한지 평가하는 과정이 필수적.
1. Inertia (SSE, Sum of Squared Errors)
"군집 내 데이터들이 얼마나 중심에 빽빽하게 모여 있는가?"
- 개념: 각 데이터와 해당 군집의 중심(Centroid) 사이의 거리를 제곱하여 모두 합한 값.
- 특징: * 값이 낮을수록 군집화가 잘 되었다고 판단.
- 군집 수(k)가 늘어날수록 Inertia 값은 무조건 감소하는 경향.
- 활용: 주로 Elbow Method를 통해 적절한 k 값을 찾을 때 사용. 기울기가 급격히 완만해지는 지점이 최적의 군집 수.
2. Silhouette Score (실루엣 계수)
"내 식구와는 가깝고, 남과는 충분히 멀리 있는가?"
- 개념: 군집 내부의 응집도와 군집 간의 분리도를 동시에 계산하는 가장 대중적인 지표.
- 범위: -1 에서 1 사이의 값.
- 1에 가까울수록: 근처 군집과 멀리 떨어져 있고 본인 군집에 잘 속해 있음.
- 0에 가까울수록: 군집 간의 경계에 위치함.
- 음수: 데이터가 잘못된 군집에 할당됨.
- 특징: 전체 평균 점수뿐만 아니라, 개별 군집별 점수의 편차가 적어야 좋은 군집화.
3. DBI (Davies–Bouldin Index)
"군집 간의 거리 대비 군집 내부의 분산이 얼마나 작은가?"
- 개념: 군집 내 분산과 군집 간 거리의 비율을 계산.
- 특징:
- 값이 낮을수록 군집 간 분리도가 높고 응집도가 좋다는 의미.
- 실루엣 계수에 비해 계산 복잡도가 낮아 대규모 데이터셋에서 보조 검증용으로 유용.
- 활용: 군집들이 얼마나 명확하게 떨어져 있는지가 중요할 때 효과적.
4. CHI (Calinski–Harabasz Index)
"군집 간 분산이 군집 내 분산보다 압도적으로 큰가?"
- 개념: (군집 간 분산 / 군집 내 분산) 비율에 데이터 수와 군집 수를 고려한 가중치를 곱한 통계적 지표.
- 특징:
- 값이 높을수록 성능이 좋다고 평가.
- 분산 기반의 지표로, 군집의 경계가 뚜렷하고 밀도가 높을 때 점수가 높게 나옴.
- 계산 속도가 매우 빨라 초기 모델링 시 빠르게 성능을 파악하기 좋음.
'내일배움캠프' 카테고리의 다른 글
| [내일배움캠프] TIL 39일차 26.03.13(금) (0) | 2026.03.13 |
|---|---|
| [내일배움캠프] TIL 38일차 26.03.12(목) (0) | 2026.03.12 |
| [내일배움캠프] TIL 36일차 26.02.26(목) (0) | 2026.02.26 |
| [내일배움캠프] TIL 35일차 26.02.25(수) (0) | 2026.02.25 |
| [내일배움캠프] TIL 34일차 26.02.24(화) (0) | 2026.02.24 |