[내일배움캠프] TIL 34일차 26.02.24(화)

내일배움캠프

nom_de_plume 2026. 2. 24. 21:09

1. 로지스틱 회귀 (Logistic Regression)

- 일반적인 선형 회귀는 결과값이 -∞에서 +∞까지 퍼져 있어 "확률"을 표현하기 부적합. 이를 해결하기 위해 시그모이드 함수를 도입.

- 이름은 '회귀'지만 사실은 분류(Classification) 모델. 어떤 사건이 발생할 확률을 0과 1 사이의 숫자로 예측하고, 그 확률에 따라 클래스를 결정

수학적 핵심: 선형 방정식 z = wx + b를 시그모이드 함수 sigma(z) = {1} / {1 + e^{-z}}에 대입. 결과값은 항상 0과 1 사이로 수렴.
손실 함수 (Loss Function): 주로 로그 손실(Log Loss) 또는 교차 엔트로피(Cross-Entropy)를 사용. 모델이 예측한 확률이 실제 정답과 멀어질수록 페널티를 크게 부여하여 최적의 가중치(w)를 찾음.
결정 경계 (Decision Boundary): 데이터를 나누는 기준선이 직선(또는 평면) 형태인 '선형 분류기'.

- KNN에서 가장 중요한 것은 "얼마나 가깝나"를 정의하는 방식과 "이웃을 몇 명까지 볼 것인가".

거리 측정 방식: * 유클리드 거리 (Euclidean Distance): 두 지점 사이의 직선 거리 (가장 일반적).
- 맨해튼 거리 (Manhattan Distance): 격자 형태의 도로를 따라가는 거리.
K값의 영향:
- K가 너무 작으면 (1 등): 데이터의 노이즈에 너무 민감 (과적합, Overfitting).
- K가 너무 크면: 데이터의 세밀한 패턴을 무시하고 다수결의 원칙에만 치우침 (과소적합, Underfitting).
스케일링 필수: KNN은 거리를 재는 모델이므로, 변수들의 단위(예: cm vs kg)가 다르면 단위가 큰 변수에 결과가 좌지우지됨. 반드시 정규화(Normalization)가 필요.

- 데이터를 나눌 때 "어떤 질문을 먼저 할 것인가?"가 모델의 성능을 결정.

- 스무고개 게임. 특정 기준(질문)에 따라 데이터를 계속해서 가지치기하며 분류하는 모델.

정보 이득 (Information Gain) & 지니 불순도 (Gini Impurity):
- 지니 불순도: 어떤 집합에 서로 다른 데이터가 얼마나 섞여 있는지를 측정. 0에 가까울수록 순수한(한 종류만 있는) 상태. 나무는 이 불순도를 가장 낮춰주는 방향으로 가지를 친다.
가지치기 (Pruning): 나무가 너무 깊게 자라면 훈련 데이터에만 완벽하게 반응하는 과적합이 발생. 이를 방지하기 위해 나무의 최대 깊이(max_depth)를 제한하거나 가지를 쳐내는 과정이 필수적.
비선형성: 직선으로 나눌 수 없는 복잡한 데이터 구조도 계단식으로 쪼개어 분류할 수 있다는 것이 큰 장점.

TIL