내일배움캠프

[내일배움캠프] TIL 37일차 26.02.27(금)

nom_de_plume 2026. 2. 27. 23:47

군집 평가지표

군집화는 '정답'이 없는 비지도 학습이기 때문에, 생성된 군집이 얼마나 논리적으로 타당한지 평가하는 과정이 필수적.

 

1. Inertia (SSE, Sum of Squared Errors)

"군집 내 데이터들이 얼마나 중심에 빽빽하게 모여 있는가?"

  • 개념: 각 데이터와 해당 군집의 중심(Centroid) 사이의 거리를 제곱하여 모두 합한 값.
  • 특징: * 값이 낮을수록 군집화가 잘 되었다고 판단.
    • 군집 수(k)가 늘어날수록 Inertia 값은 무조건 감소하는 경향.
  • 활용: 주로 Elbow Method를 통해 적절한 k 값을 찾을 때 사용. 기울기가 급격히 완만해지는 지점이 최적의 군집 수.

2. Silhouette Score (실루엣 계수)

"내 식구와는 가깝고, 남과는 충분히 멀리 있는가?"

  • 개념: 군집 내부의 응집도와 군집 간의 분리도를 동시에 계산하는 가장 대중적인 지표.
  • 범위: -1 에서 1 사이의 값.
    • 1에 가까울수록: 근처 군집과 멀리 떨어져 있고 본인 군집에 잘 속해 있음.
    • 0에 가까울수록: 군집 간의 경계에 위치함.
    • 음수: 데이터가 잘못된 군집에 할당됨.
  • 특징: 전체 평균 점수뿐만 아니라, 개별 군집별 점수의 편차가 적어야 좋은 군집화.

3. DBI (Davies–Bouldin Index)

"군집 간의 거리 대비 군집 내부의 분산이 얼마나 작은가?"

  • 개념: 군집 내 분산과 군집 간 거리의 비율을 계산.
  • 특징:
    • 값이 낮을수록 군집 간 분리도가 높고 응집도가 좋다는 의미.
    • 실루엣 계수에 비해 계산 복잡도가 낮아 대규모 데이터셋에서 보조 검증용으로 유용.
  • 활용: 군집들이 얼마나 명확하게 떨어져 있는지가 중요할 때 효과적.

4. CHI (Calinski–Harabasz Index)

"군집 간 분산이 군집 내 분산보다 압도적으로 큰가?"

  • 개념: (군집 간 분산 / 군집 내 분산) 비율에 데이터 수와 군집 수를 고려한 가중치를 곱한 통계적 지표.
  • 특징:
    • 값이 높을수록 성능이 좋다고 평가.
    • 분산 기반의 지표로, 군집의 경계가 뚜렷하고 밀도가 높을 때 점수가 높게 나옴.
    • 계산 속도가 매우 빨라 초기 모델링 시 빠르게 성능을 파악하기 좋음.