[내일배움캠프] TIL 25일차 26.02.04(수)

내일배움캠프

[내일배움캠프] TIL 25일차 26.02.04(수)

nom_de_plume 2026. 2. 4. 20:18

Standard 통계 이론 1일차

통계학을 배우는 이유

방대한 양의 데이터 요약위해
보다 나은 의사결정위해
중요한 사회적 질문에 대답위해
일을 보다 잘할 수 있는 패턴 발견위해

데이터의 유형

수치형 / 양적 데이터 (Numerical 수치형 / Quantitative 양적)
- 이산형 (Discrete):
  - 셀 수 없는 정수값
  - ex) 고객 수, 불량품 개수, 클릭 횟수
- 연속형 (Continuous):
  - 측정 가능한 실수값
  - ex) 키, 몸무게, 온도, 풍속
범주형 / 질적 데이터 (Categorical 범주형 / Qualitative 질적)
- 명목형 (Nominal):
  - 순서 없는 범주
  - ex) 성별, 혈액형, 지역
- 순서형 (Ordinal):
  - 순서 있는 범주
  - ex) 수능 등급, 만족도 등급, 선호도 순위
- 이진형 (Binary):
  - 두 개의 값 (0/1 | 참/거짓)만을 갖는 범주형 데이터의 특수한 경우

기술 통계 (Descriptive Statistics)

측정이나 실험에서 수집한 자료 (data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법
수집한 데이터를 정리 / 요약 / 해석 / 표현
이미 있는 데이터를 보기 좋게 요약 및 정리
목적: 흐름을 빠르게 이해하고, 의사결정하기 위함.
ex) 매출 데이터를 표 혹은 그래프로 요약 및 시각화

위치 추정
- 평균 (Mean)
  - 모든 관측치를 다 사용
  - 데이터에 매우 민감
  - 산술 평균 (Arithmetric Mean)
    - 데이터를 모두 더한 값을 데이터 수로 나누어 구한 평균
  - 절사 평균 (Trimmed Mean)
    - 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균
    - 정해진 개수의 극단값 (Extreme Value)을 제외한 나머지 값들의 평균
  - 가중 평균 (Weighted Mean)
    - 각 데이터 값에 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 평균
- 중간값 / 중앙값 (Median)
  - 데이터를 일렬로 정렬했을 때, 한 가운데에 위치하는 값
  - 데이터 개수가 짝수라면 그 중간값은 가운데 있는 두 값의 평균
  - 정렬된 데이터의 가운데에 위치한 값들만으로 결정
  - 평균보다는 중앙값이 위치 추정에 유리
- 특이값 / 극단값
  - 특잇값:
    - 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값
    - 정확한 정의는 다소 주관적
    - 데이터 값 자체가 유효하지 않다거나 잘못되었다는 뜻이 아님
    - 서로 다른 단위의 값들이 섞여 있거나, 센서에서 잘못된 값이 읽힌다면 에러값들이 특이값으로 나타나기도 함.
      - 평균 -> 잘못된 위치 추정할 가능성 생김
      - 중앙값 -> 여전히 설득력 있는 결과 도출 가능
    - 어떤 경우든 특잇값들을 확인하고 자세히 살펴본 후 분석 진행 필수
변이 (Variability) 추정
- 표준편차와 관련 추정값들
  - 편차 (Deviation):
    - 데이터가 평균에서 얼마나 떨어져 있는지 나타낸 값
    - 편차 = (각 변량) - (전체 평균)
  - 분산 (Variance):
    - 데이터의 흩어짐을 볼 수 없는 편차의 한계를 극복하기 위해 등장한 개념
    - 제곱 편차(모두 양수)의 평균
    - 분산 = 편차의 제곱의 합 / 총 변량의 개수
      - 제곱 : 플러스 / 마이너스 상쇄 방지
  - 표준편차 (Standard Deviation):
    - 분산의 단위가 제곱 단위라 직관적 해석이 어렵다는 문제에서 기반한 개념
    - 현실 단위로 읽히는 변동성 지
    - 표준편차 = 분산의 제곱근 = 분산의 루트
      - 루트 : 단위 복원 & 직관 회복
- 백분위수에 기초한 추정
  - 순서통계량 (Order Statistics):
    - 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
    - 정렬(순위) 데이터를 나타내는 통계량
  - 범위 (Range):
    - 데이터의 최댓값과 최솟값의 차이
  - 백분위수 (Percentile):
    - 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100 - P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
  - 사분위범위 (Interquartile Range, IQR):
    - 75번째 백분위수와 25번째 백분위수 사이의 차이
    - 변이를 측정하는 대표적 방법
- 데이터 분포 탐색
  - 백분위수와 상자그림
    - 상자그림 (Box Plot):
      - 투키가 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림
      - 백분위수를 이용해 데이터의 분산을 손쉽게 시각화하는 방법
      - 상자부분의 위쪽과 아래쪽은 각각 75%, 25% 백분위수를 의미
        
        중간값: 상자안에 있는 굵은 수평선으로 표시
        
        수염(Whisker): 데이터 전체의 범위를 나타내주는 위 아래 선들과 연결
        
        수염 밖의 점: 이상치
  - 도수분포표와 히스토그램
    - 도수분포표 (Frequency Table):
      - 어떤 구간(Interval) / 빈(Bin)에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록
      - 변수의 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇 개의 변수 값이 존재하는지 보여주기 위해 사용
      - 구간의 크기가 너무 크면 분포를 나타내는 중요한 특징을 놓칠 수 있고, 반대로 너무 작으면 결과가 너무 쪼개져 있어서 더 큰 그림을 볼 수 없게 됨.
        
        히스토그램 (Histogram):
        
        x축은 구간들, y축은 해당 구간별 빈도수를 나타내는 도수분포표의 그림
        
        그래프에 빈 구간 존재 가능
        
        구간은 동일한 크기 가짐.
        
        구간의 수 (혹은 구간의 크기)는 사용자가 결정 가능
        
        빈 구간이 있지 않은 이상, 막대 사이의 공간없이 서로 붙어있다.
  - 밀도추정
    - 밀도 그림 (Density Plot):
      - 히스토그램을 부드러운 곡선으로 나타낸 그림
      - 커널밀도추정(Kernel Density Estimation)을 주로 사용
      - 히스토그램과 가장 큰 차이는 y축 값의 단위로 밀도 그림에서는 개수가 아닌 비율 표시
    - 바이올린 도표 (Violin Plot):
      - 상자그림 보완 형태
      - y축을 따라 밀도추정 결과를 동시에 시각화
      - 밀도 분포 모양을 좌우대칭으로 서로 겹쳐지도록 해놓고 보면 바이올린을 닮은 모양
      - 상자그림에서 보이지 않는 데이터의 분포를 볼 수 있다는 장점
- 이진 데이터와 범주 데이터 탐색
  - 최빈값 (Mode):
    - 데이터에서 가장 자주 등장하는 범주 혹은 값
  - 막대도표 (Bar Chart):
    - 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림
    - 범주형 자료를 보여줄 때 주로 사용
    - 히스토그램과 매우 유사
    - x축은 각 요인변수(factored variable)의 서로 다른 범주들.
    - 막대들은 서로 떨어져 있음.
      - 히스토그램의 x축은 수치적으로 나타낼 수 있는 하나의 변수 값.
      - 히스토그램에서의 막대들은 일반적으로 서로 붙어있고, 중간에 틈이 있다는 것은 그 부분에 해당하는 값들이 존재하지 않는다는 것을 의미
  - 파이그림 (Pie Chart):
    - 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림
    - 막대도표 대신 사용 가능, BUT 시각적으로 효과적이지 않ㄴ다는 이유로 잘 사용 X
- 상관관계
  - 상관계수 (Correlation Coefficient) (= 피어슨 상관계수):
    - 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량
    - -1에서 +1까지의 범위
  - 상관행렬 (Correlation Matrix):
    - 행과 열이 변수들을 의미하는 표
    - 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미
  - 산점도 (Scattor Plot):
    - x축고 y축이 서로 다른 두 개의 변수를 나타내는 도표

추론통계 (Descriptive Statistics)

모집단에 대한 어떠한 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정
기술통계와 개별되는 개념
표본으로 전체를 추정하는 것
목적: 전수조사는 시간 / 비용 / 노력의 한계가 있으니 일부(표본)을 뽑아 전체(모집단)를 추정
주의: 일부(표본)을 잘 뽑아야 함
장점: 전수조사를 하지 않아도 전체(모집단) 추정 가능
단점: 표본 오류와 같은 불확실성이 항상 존재

'내일배움캠프' 카테고리의 다른 글

[내일배움캠프] TIL 27일차 26.02.06(금) (0)	2026.02.06
[내일배움캠프] TIL 26일차 26.02.05(목) (0)	2026.02.05
[내일배움캠프] TIL 24일차 26.02.03(화) (0)	2026.02.03
[내일배움캠프] TIL 23일차 26.01.23(금) (0)	2026.01.23
[내일배움캠프] TIL 22일차 26.01.22(목) (0)	2026.01.22

현재글[내일배움캠프] TIL 25일차 26.02.04(수)

TIL

#파이썬 #파이썬기초 #코딩입문 #코딩처음 #데이터분석 #데이터분석입문 #구글코랩 #비전공자코딩 #중학생코딩, 파이썬 #파이썬기초 #데이터분석 #데이터분석입문 #코딩입문 #코딩초보 #구글코랩 #판다스,

Today :
Yesterday :

TIL

[내일배움캠프] TIL 25일차 26.02.04(수)

Standard 통계 이론 1일차

'내일배움캠프' 카테고리의 다른 글

'내일배움캠프'의 다른글

티스토리툴바

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

[내일배움캠프] TIL 25일차 26.02.04(수)

Standard 통계 이론 1일차

'내일배움캠프' 카테고리의 다른 글

'내일배움캠프'의 다른글

관련글

티스토리툴바