중심극한정리 (Central Limit Theorem, CLT)
- 모집단이 어떤 분포든 상관없이, 표본크기 n이 충분히 크면 (보통 n ≥ 30), 표본평균 x̄의 분포는 정규분포에 가까워진다.
- x̄ ~ N(μ, σ²/n) (n이 충분히 클 때)
- 중요한 이유
- 분포 가정 불필요
- 모집단이 정규분포가 아니어도 표본평균은 정규분포에 수렴
- 추론의 기초
- 신뢰구간, 가설검정 모두 표본평균의 정규성(표본평균이 정규분포를 따르는 성질)에 기반
- 실용적 기준 n ≥ 30
- 대부분의 모집단에서 n ≥ 30이면 정규 근사가 충분히 좋다.
- 모집단이 극단적으로 비대칭이거나 이상치가 많으면 n ≥ 30도 부족할 수 있다.
- 분포 가정 불필요
신뢰구간
📌 수동계산
for confidence in [0.90, 0.95, 0.99]:
alpha = 1 - confidence
t_crit = stats.t.ppf(1-alpha/2, df=n-1)
margin = t_crit * se
ci_low = xbar - margin
ci_high = xbar + margin
print(f"신뢰수준 {confidence*100:.0f} CI:[{ci_low:.2f}, {ci_high:.2f}]")
- alpha = 1 - confidence
- => 유의수준 설정
- t_crit = stats.t.ppf(1 - alpha/2, df=n-1)
- => t-임계값 계산
- 양측검정을 기준으로 하기 때문에 alpha/2 지점 찾기
- 자유도는 n-1로 설정
- => 표본의 크기가 작을수록 t-분포는 옆으로 넓게 퍼지며, 임계값도 이에 따라 커진다.
- => t-임계값 계산
- margin = t_crit * se
- => 오차한계 계산
- 임계값에 표준오차 곱해주기
- => 오차한계 계산
**표준오차 계산(se)
se_bat = stats.sem(data)
- 표본의 표준편차(s)를 데이터 개수(n)의 제곱근으로 나눈 값
- ci_low = xbar - margin
- ci_high = xbar + margin
- => 신뢰구간 산출
- 표본평균을 중심으로 오차한계를 더하고 빼 구간 계산
- => 신뢰수준이 높아질수록 t-임계값이 커지므로 신뢰구간의 폭은 더 넓어진다.
- => 신뢰구간 산출
📌 자동계산
ci = stats.t.interval(alpha, df, loc, scale)
- alpha : 신뢰수준
- => 90, 95, 99
- df : 자유도
- => 데이터의 개수(n)에서 1을 뺀 값 (n-1)
- loc : 위치
- => 기준점이 되는 표본 평균 (xbar)
- scale : 규모
- => 데이터가 퍼진 정도인 표준오차 (se)
'내일배움캠프' 카테고리의 다른 글
| [내일배움캠프] TIL 30일차 26.02.11(수) (0) | 2026.02.11 |
|---|---|
| [내일배움캠프] TIL 29일차 26.02.10(화) (0) | 2026.02.10 |
| [내일배움캠프] TIL 27일차 26.02.06(금) (0) | 2026.02.06 |
| [내일배움캠프] TIL 26일차 26.02.05(목) (0) | 2026.02.05 |
| [내일배움캠프] TIL 25일차 26.02.04(수) (0) | 2026.02.04 |