내일배움캠프

[내일배움캠프] TIL 35일차 26.02.25(수)

nom_de_plume 2026. 2. 25. 21:49

회귀 분석(Regression)

  • 데이터들 사이의 관계를 파악하여 연속적인 숫자 값을 예측하는 기법
  • "원인(독립 변수)"과 "결과(종속 변수)" 사이의 상관관계를 모델링하는 것
  • 단순히 숫자를 맞히는 것을 넘어, 어떤 변수가 결과에 가장 큰 영향을 주는지 파악하는 데 매우 강력한 도구
  • 예시:
    • 공부 시간(원인)에 따른 시험 점수(결과) 예측
    • 아파트 평수(원인)에 따른 매매가(결과) 예측
    • 어제의 기온과 습도(원인)에 따른 오늘 전력 소모량(결과) 예측

 

주요 회귀 모델 종류:

모델명 특징 한 줄 설명
단순 선형 회귀 독립 변수가 1개 하나의 원인으로 결과 예측 (y = ax + b)
다중 선형 회귀 독립 변수가 여러 개 여러 요인(평수, 위치, 연식)으로 결과 예측
다항 회귀 데이터가 곡선 형태 직선이 아닌 곡선 형태의 복잡한 관계를 모델링

 

 

학습 방법:

모델이 "얼마나 잘 예측했는지"를 평가하기 위해 두 가지 핵심 개념이 필요.

 

1. 손실 함수 (Loss Function):

  • 실제 값과 모델이 예측한 값 사이의 차이(오차)를 계산.
  • 가장 흔히 쓰이는 방식은 MSE(Mean Squared Error, 평균 제곱 오차).

2. 최적화 (Optimization):

  • 손실 함수의 값을 최소화하는 '기울기'와 '절편'을 찾는 과정.
  • 경사하강법(Gradient Descent)이라는 알고리즘이 주로 사용.

 

성능 평가 지표:

  • MAE (Mean Absolute Error): 오차의 절댓값 평균 (직관적임)
  • RMSE (Root Mean Squared Error): MSE에 루트를 씌운 값 (큰 오차에 민감함)
  • R^2 Score (결정계수): 모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표 (1에 가까울수록 정확함)