[내일배움캠프] TIL 37일차 26.02.27(금)

내일배움캠프

nom_de_plume 2026. 2. 27. 23:47

군집 평가지표

군집화는 '정답'이 없는 비지도 학습이기 때문에, 생성된 군집이 얼마나 논리적으로 타당한지 평가하는 과정이 필수적.

"군집 내 데이터들이 얼마나 중심에 빽빽하게 모여 있는가?"

"내 식구와는 가깝고, 남과는 충분히 멀리 있는가?"

개념: 군집 내부의 응집도와 군집 간의 분리도를 동시에 계산하는 가장 대중적인 지표.
범위: -1 에서 1 사이의 값.
- 1에 가까울수록: 근처 군집과 멀리 떨어져 있고 본인 군집에 잘 속해 있음.
- 0에 가까울수록: 군집 간의 경계에 위치함.
- 음수: 데이터가 잘못된 군집에 할당됨.
특징: 전체 평균 점수뿐만 아니라, 개별 군집별 점수의 편차가 적어야 좋은 군집화.

"군집 간의 거리 대비 군집 내부의 분산이 얼마나 작은가?"

개념: 군집 내 분산과 군집 간 거리의 비율을 계산.
특징:
- 값이 낮을수록 군집 간 분리도가 높고 응집도가 좋다는 의미.
- 실루엣 계수에 비해 계산 복잡도가 낮아 대규모 데이터셋에서 보조 검증용으로 유용.
활용: 군집들이 얼마나 명확하게 떨어져 있는지가 중요할 때 효과적.

"군집 간 분산이 군집 내 분산보다 압도적으로 큰가?"

개념: (군집 간 분산 / 군집 내 분산) 비율에 데이터 수와 군집 수를 고려한 가중치를 곱한 통계적 지표.
특징:
- 값이 높을수록 성능이 좋다고 평가.
- 분산 기반의 지표로, 군집의 경계가 뚜렷하고 밀도가 높을 때 점수가 높게 나옴.
- 계산 속도가 매우 빨라 초기 모델링 시 빠르게 성능을 파악하기 좋음.

TIL