내일배움캠프

[내일배움캠프] TIL 28일차 26.02.09(월)

nom_de_plume 2026. 2. 9. 19:19

중심극한정리 (Central Limit Theorem, CLT)

  • 모집단이 어떤 분포든 상관없이, 표본크기 n이 충분히 크면 (보통 n ≥ 30), 표본평균 x̄의 분포는 정규분포에 가까워진다.
  • x̄ ~ N(μ, σ²/n)    (n이 충분히 클 때)
  • 중요한 이유
    • 분포 가정 불필요
      • 모집단이 정규분포가 아니어도 표본평균은 정규분포에 수렴
    • 추론의 기초
      • 신뢰구간, 가설검정 모두 표본평균의 정규성(표본평균이 정규분포를 따르는 성질)에 기반
    • 실용적 기준 n ≥ 30
      • 대부분의 모집단에서 n ≥ 30이면 정규 근사가 충분히 좋다.
      • 모집단이 극단적으로 비대칭이거나 이상치가 많으면 n ≥ 30도 부족할 수 있다.
 

신뢰구간

📌 수동계산

for confidence in [0.90, 0.95, 0.99]:
    alpha = 1 - confidence

    t_crit = stats.t.ppf(1-alpha/2, df=n-1)

    margin = t_crit * se

    ci_low = xbar - margin
    ci_high = xbar + margin

    print(f"신뢰수준 {confidence*100:.0f} CI:[{ci_low:.2f}, {ci_high:.2f}]")
 
  • alpha = 1 - confidence
    • => 유의수준 설정
  • t_crit = stats.t.ppf(1 - alpha/2, df=n-1)
    • => t-임계값 계산
      • 양측검정을 기준으로 하기 때문에 alpha/2 지점 찾기
      • 자유도는 n-1로 설정
      • => 표본의 크기가 작을수록 t-분포는 옆으로 넓게 퍼지며, 임계값도 이에 따라 커진다.
  • margin = t_crit * se
    • => 오차한계 계산
      • 임계값에 표준오차 곱해주기

**표준오차 계산(se)

se_bat = stats.sem(data)
  • 표본의 표준편차(s)를 데이터 개수(n)의 제곱근으로 나눈 값

 

  • ci_low = xbar - margin
  • ci_high = xbar + margin
    • => 신뢰구간 산출
      • 표본평균을 중심으로 오차한계를 더하고 빼 구간 계산
      • => 신뢰수준이 높아질수록 t-임계값이 커지므로 신뢰구간의 폭은 더 넓어진다.

📌  자동계산

ci = stats.t.interval(alpha, df, loc, scale)

 

 

  • alpha : 신뢰수준
    • => 90, 95, 99 
  • df : 자유도
    • => 데이터의 개수(n)에서 1을 뺀 값 (n-1)
  • loc : 위치
    • => 기준점이 되는 표본 평균 (xbar)
  • scale : 규모
    • => 데이터가 퍼진 정도인 표준오차 (se)