Standard 통계 이론 1일차
통계학을 배우는 이유
- 방대한 양의 데이터 요약위해
- 보다 나은 의사결정위해
- 중요한 사회적 질문에 대답위해
- 일을 보다 잘할 수 있는 패턴 발견위해
데이터의 유형
- 수치형 / 양적 데이터 (Numerical 수치형 / Quantitative 양적)
- 이산형 (Discrete):
- 셀 수 없는 정수값
- ex) 고객 수, 불량품 개수, 클릭 횟수
- 연속형 (Continuous):
- 측정 가능한 실수값
- ex) 키, 몸무게, 온도, 풍속
- 이산형 (Discrete):
- 범주형 / 질적 데이터 (Categorical 범주형 / Qualitative 질적)
- 명목형 (Nominal):
- 순서 없는 범주
- ex) 성별, 혈액형, 지역
- 순서형 (Ordinal):
- 순서 있는 범주
- ex) 수능 등급, 만족도 등급, 선호도 순위
- 이진형 (Binary):
- 두 개의 값 (0/1 | 참/거짓)만을 갖는 범주형 데이터의 특수한 경우
- 명목형 (Nominal):
기술 통계 (Descriptive Statistics)
- 측정이나 실험에서 수집한 자료 (data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법
- 수집한 데이터를 정리 / 요약 / 해석 / 표현
- 이미 있는 데이터를 보기 좋게 요약 및 정리
- 목적: 흐름을 빠르게 이해하고, 의사결정하기 위함.
- ex) 매출 데이터를 표 혹은 그래프로 요약 및 시각화
- 위치 추정
- 평균 (Mean)
- 모든 관측치를 다 사용
- 데이터에 매우 민감
- 산술 평균 (Arithmetric Mean)
- 데이터를 모두 더한 값을 데이터 수로 나누어 구한 평균
- 절사 평균 (Trimmed Mean)
- 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균
- 정해진 개수의 극단값 (Extreme Value)을 제외한 나머지 값들의 평균
- 가중 평균 (Weighted Mean)
- 각 데이터 값에 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 평균
- 중간값 / 중앙값 (Median)
- 데이터를 일렬로 정렬했을 때, 한 가운데에 위치하는 값
- 데이터 개수가 짝수라면 그 중간값은 가운데 있는 두 값의 평균
- 정렬된 데이터의 가운데에 위치한 값들만으로 결정
- 평균보다는 중앙값이 위치 추정에 유리
- 특이값 / 극단값
- 특잇값:
- 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값
- 정확한 정의는 다소 주관적
- 데이터 값 자체가 유효하지 않다거나 잘못되었다는 뜻이 아님
- 서로 다른 단위의 값들이 섞여 있거나, 센서에서 잘못된 값이 읽힌다면 에러값들이 특이값으로 나타나기도 함.
- 평균 -> 잘못된 위치 추정할 가능성 생김
- 중앙값 -> 여전히 설득력 있는 결과 도출 가능
- 어떤 경우든 특잇값들을 확인하고 자세히 살펴본 후 분석 진행 필수
- 특잇값:
- 평균 (Mean)
- 변이 (Variability) 추정
- 표준편차와 관련 추정값들
- 편차 (Deviation):
- 데이터가 평균에서 얼마나 떨어져 있는지 나타낸 값
- 편차 = (각 변량) - (전체 평균)
- 분산 (Variance):
- 데이터의 흩어짐을 볼 수 없는 편차의 한계를 극복하기 위해 등장한 개념
- 제곱 편차(모두 양수)의 평균
- 분산 = 편차의 제곱의 합 / 총 변량의 개수
- 제곱 : 플러스 / 마이너스 상쇄 방지
- 표준편차 (Standard Deviation):
- 분산의 단위가 제곱 단위라 직관적 해석이 어렵다는 문제에서 기반한 개념
- 현실 단위로 읽히는 변동성 지
- 표준편차 = 분산의 제곱근 = 분산의 루트
- 루트 : 단위 복원 & 직관 회복
- 편차 (Deviation):
- 백분위수에 기초한 추정
- 순서통계량 (Order Statistics):
- 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
- 정렬(순위) 데이터를 나타내는 통계량
- 범위 (Range):
- 데이터의 최댓값과 최솟값의 차이
- 백분위수 (Percentile):
- 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100 - P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
- 사분위범위 (Interquartile Range, IQR):
- 75번째 백분위수와 25번째 백분위수 사이의 차이
- 변이를 측정하는 대표적 방법
- 순서통계량 (Order Statistics):
- 데이터 분포 탐색
- 백분위수와 상자그림
- 상자그림 (Box Plot):
- 투키가 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림
- 백분위수를 이용해 데이터의 분산을 손쉽게 시각화하는 방법
- 상자부분의 위쪽과 아래쪽은 각각 75%, 25% 백분위수를 의미
- 중간값: 상자안에 있는 굵은 수평선으로 표시
- 수염(Whisker): 데이터 전체의 범위를 나타내주는 위 아래 선들과 연결
- 수염 밖의 점: 이상치
- 상자그림 (Box Plot):
- 도수분포표와 히스토그램
- 도수분포표 (Frequency Table):
- 어떤 구간(Interval) / 빈(Bin)에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록
- 변수의 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇 개의 변수 값이 존재하는지 보여주기 위해 사용
- 구간의 크기가 너무 크면 분포를 나타내는 중요한 특징을 놓칠 수 있고, 반대로 너무 작으면 결과가 너무 쪼개져 있어서 더 큰 그림을 볼 수 없게 됨.
- 히스토그램 (Histogram):
- x축은 구간들, y축은 해당 구간별 빈도수를 나타내는 도수분포표의 그림
- 그래프에 빈 구간 존재 가능
- 구간은 동일한 크기 가짐.
- 구간의 수 (혹은 구간의 크기)는 사용자가 결정 가능
- 빈 구간이 있지 않은 이상, 막대 사이의 공간없이 서로 붙어있다.
- x축은 구간들, y축은 해당 구간별 빈도수를 나타내는 도수분포표의 그림
- 히스토그램 (Histogram):
- 도수분포표 (Frequency Table):
- 밀도추정
- 밀도 그림 (Density Plot):
- 히스토그램을 부드러운 곡선으로 나타낸 그림
- 커널밀도추정(Kernel Density Estimation)을 주로 사용
- 히스토그램과 가장 큰 차이는 y축 값의 단위로 밀도 그림에서는 개수가 아닌 비율 표시
- 바이올린 도표 (Violin Plot):
- 상자그림 보완 형태
- y축을 따라 밀도추정 결과를 동시에 시각화
- 밀도 분포 모양을 좌우대칭으로 서로 겹쳐지도록 해놓고 보면 바이올린을 닮은 모양
- 상자그림에서 보이지 않는 데이터의 분포를 볼 수 있다는 장점
- 밀도 그림 (Density Plot):
- 백분위수와 상자그림
- 이진 데이터와 범주 데이터 탐색
- 최빈값 (Mode):
- 데이터에서 가장 자주 등장하는 범주 혹은 값
- 막대도표 (Bar Chart):
- 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림
- 범주형 자료를 보여줄 때 주로 사용
- 히스토그램과 매우 유사
- x축은 각 요인변수(factored variable)의 서로 다른 범주들.
- 막대들은 서로 떨어져 있음.
- 히스토그램의 x축은 수치적으로 나타낼 수 있는 하나의 변수 값.
- 히스토그램에서의 막대들은 일반적으로 서로 붙어있고, 중간에 틈이 있다는 것은 그 부분에 해당하는 값들이 존재하지 않는다는 것을 의미
- 파이그림 (Pie Chart):
- 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림
- 막대도표 대신 사용 가능, BUT 시각적으로 효과적이지 않ㄴ다는 이유로 잘 사용 X
- 최빈값 (Mode):
- 상관관계
- 상관계수 (Correlation Coefficient) (= 피어슨 상관계수):
- 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량
- -1에서 +1까지의 범위
- 상관행렬 (Correlation Matrix):
- 행과 열이 변수들을 의미하는 표
- 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미
- 산점도 (Scattor Plot):
- x축고 y축이 서로 다른 두 개의 변수를 나타내는 도표
- 상관계수 (Correlation Coefficient) (= 피어슨 상관계수):
- 표준편차와 관련 추정값들
추론통계 (Descriptive Statistics)
- 모집단에 대한 어떠한 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정
- 기술통계와 개별되는 개념
- 표본으로 전체를 추정하는 것
- 목적: 전수조사는 시간 / 비용 / 노력의 한계가 있으니 일부(표본)을 뽑아 전체(모집단)를 추정
- 주의: 일부(표본)을 잘 뽑아야 함
- 장점: 전수조사를 하지 않아도 전체(모집단) 추정 가능
- 단점: 표본 오류와 같은 불확실성이 항상 존재
'내일배움캠프' 카테고리의 다른 글
| [내일배움캠프] TIL 27일차 26.02.06(금) (0) | 2026.02.06 |
|---|---|
| [내일배움캠프] TIL 26일차 26.02.05(목) (0) | 2026.02.05 |
| [내일배움캠프] TIL 24일차 26.02.03(화) (0) | 2026.02.03 |
| [내일배움캠프] TIL 23일차 26.01.23(금) (0) | 2026.01.23 |
| [내일배움캠프] TIL 22일차 26.01.22(목) (0) | 2026.01.22 |