내일배움캠프

[내일배움캠프] TIL 25일차 26.02.04(수)

nom_de_plume 2026. 2. 4. 20:18

Standard 통계 이론 1일차

 

통계학을 배우는 이유

  • 방대한 양의 데이터 요약위해
  • 보다 나은 의사결정위해
  • 중요한 사회적 질문에 대답위해
  • 일을 보다 잘할 수 있는 패턴 발견위해

 

데이터의 유형

  • 수치형 / 양적 데이터 (Numerical 수치형 / Quantitative 양적)
    • 이산형 (Discrete):
      • 셀 수 없는 정수값
      • ex) 고객 수, 불량품 개수, 클릭 횟수
    • 연속형 (Continuous):
      • 측정 가능한 실수값
      • ex) 키, 몸무게, 온도, 풍속
  • 범주형 / 질적 데이터 (Categorical 범주형 / Qualitative 질적)
    • 명목형 (Nominal):
      • 순서 없는 범주
      • ex) 성별, 혈액형, 지역
    • 순서형 (Ordinal):
      • 순서 있는 범주
      • ex) 수능 등급, 만족도 등급, 선호도 순위
    • 이진형 (Binary):
      • 두 개의 값 (0/1 | 참/거짓)만을 갖는 범주형 데이터의 특수한 경우

 

기술 통계 (Descriptive Statistics)

  • 측정이나 실험에서 수집한 자료 (data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법
  • 수집한 데이터를 정리 / 요약 / 해석 / 표현
  • 이미 있는 데이터를 보기 좋게 요약 및 정리
  • 목적: 흐름을 빠르게 이해하고, 의사결정하기 위함.
  • ex) 매출 데이터를 표 혹은 그래프로 요약 및 시각화

 

  • 위치 추정
    • 평균 (Mean)
      • 모든 관측치를 다 사용 
      • 데이터에 매우 민감
      • 산술 평균 (Arithmetric Mean)
        • 데이터를 모두 더한 값을 데이터 수로 나누어 구한 평균
      • 절사 평균 (Trimmed Mean)
        • 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균
        • 정해진 개수의 극단값 (Extreme Value)을 제외한 나머지 값들의 평균
      • 가중 평균 (Weighted Mean)
        • 각 데이터 값에 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 평균
    • 중간값 / 중앙값 (Median)
      • 데이터를 일렬로 정렬했을 때, 한 가운데에 위치하는 값
      • 데이터 개수가 짝수라면 그 중간값은 가운데 있는 두 값의 평균
      • 정렬된 데이터의 가운데에 위치한 값들만으로 결정
      • 평균보다는 중앙값이 위치 추정에 유리
    • 특이값 / 극단값
      • 특잇값:
        • 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값
        • 정확한 정의는 다소 주관적
        • 데이터 값 자체가 유효하지 않다거나 잘못되었다는 뜻이 아님
        • 서로 다른 단위의 값들이 섞여 있거나, 센서에서 잘못된 값이 읽힌다면 에러값들이 특이값으로 나타나기도 함.
          • 평균 -> 잘못된 위치 추정할 가능성 생김
          • 중앙값 -> 여전히 설득력 있는 결과 도출 가능 
        • 어떤 경우든 특잇값들을 확인하고 자세히 살펴본 후 분석 진행 필수
  • 변이 (Variability) 추정
    • 표준편차와 관련 추정값들
      • 편차 (Deviation):
        • 데이터가 평균에서 얼마나 떨어져 있는지 나타낸 값
        • 편차 = (각 변량) - (전체 평균)
      • 분산 (Variance):
        • 데이터의 흩어짐을 볼 수 없는 편차의 한계를 극복하기 위해 등장한 개념
        • 제곱 편차(모두 양수)의 평균
        • 분산 = 편차의 제곱의 합 / 총 변량의 개수
          • 제곱 : 플러스 / 마이너스 상쇄 방지
      • 표준편차 (Standard Deviation):
        • 분산의 단위가 제곱 단위라 직관적 해석이 어렵다는 문제에서 기반한 개념
        • 현실 단위로 읽히는 변동성 지
        • 표준편차 = 분산의 제곱근 = 분산의 루트
          • 루트 : 단위 복원 & 직관 회복
    • 백분위수에 기초한 추정
      • 순서통계량 (Order Statistics):
        • 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
        • 정렬(순위) 데이터를 나타내는 통계량
      • 범위 (Range):
        • 데이터의 최댓값과 최솟값의 차이
      • 백분위수 (Percentile):
        • 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100 - P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
      • 사분위범위 (Interquartile Range, IQR):
        • 75번째 백분위수와 25번째 백분위수 사이의 차이
        • 변이를 측정하는 대표적 방법
    • 데이터 분포 탐색
      • 백분위수와 상자그림
        • 상자그림 (Box Plot):
          • 투키가 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림
          • 백분위수를 이용해 데이터의 분산을 손쉽게 시각화하는 방법
          • 상자부분의 위쪽과 아래쪽은 각각 75%, 25% 백분위수를 의미
            • 중간값: 상자안에 있는 굵은 수평선으로 표시
            • 수염(Whisker): 데이터 전체의 범위를 나타내주는 위 아래 선들과 연결
            • 수염 밖의 점: 이상치
      • 도수분포표와 히스토그램 
        • 도수분포표 (Frequency Table):
          • 어떤 구간(Interval) / 빈(Bin)에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록
          • 변수의 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇 개의 변수 값이 존재하는지 보여주기 위해 사용
          • 구간의 크기가 너무 크면 분포를 나타내는 중요한 특징을 놓칠 수 있고, 반대로 너무 작으면 결과가 너무 쪼개져 있어서 더 큰 그림을 볼 수 없게 됨. 
            • 히스토그램 (Histogram):
              • x축은 구간들, y축은 해당 구간별 빈도수를 나타내는 도수분포표의 그림
                • 그래프에 빈 구간 존재 가능
                • 구간은 동일한 크기 가짐.
                • 구간의 수 (혹은 구간의 크기)는 사용자가 결정 가능
                • 빈 구간이 있지 않은 이상, 막대 사이의 공간없이 서로 붙어있다.
      • 밀도추정
        • 밀도 그림 (Density Plot):
          • 히스토그램을 부드러운 곡선으로 나타낸 그림
          • 커널밀도추정(Kernel Density Estimation)을 주로 사용
          • 히스토그램과 가장 큰 차이는 y축 값의 단위로 밀도 그림에서는 개수가 아닌 비율 표시
        • 바이올린 도표 (Violin Plot):
          • 상자그림 보완 형태
          • y축을 따라 밀도추정 결과를 동시에 시각화
          • 밀도 분포 모양을 좌우대칭으로 서로 겹쳐지도록 해놓고 보면 바이올린을 닮은 모양
          • 상자그림에서 보이지 않는 데이터의 분포를 볼 수 있다는 장점
    • 이진 데이터와 범주 데이터 탐색
      • 최빈값 (Mode):
        • 데이터에서 가장 자주 등장하는 범주 혹은 값
      • 막대도표 (Bar Chart):
        • 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림
        • 범주형 자료를 보여줄 때 주로 사용
        • 히스토그램과 매우 유사
        • x축은 각 요인변수(factored variable)의 서로 다른 범주들.
        • 막대들은 서로 떨어져 있음. 
          • 히스토그램의 x축은 수치적으로 나타낼 수 있는 하나의 변수 값.
          • 히스토그램에서의 막대들은 일반적으로 서로 붙어있고, 중간에 틈이 있다는 것은 그 부분에 해당하는 값들이 존재하지 않는다는 것을 의미
      • 파이그림 (Pie Chart):
        • 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림
        • 막대도표 대신 사용 가능, BUT 시각적으로 효과적이지 않ㄴ다는 이유로 잘 사용 X
    • 상관관계
      • 상관계수 (Correlation Coefficient) (= 피어슨 상관계수):
        • 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량
        • -1에서 +1까지의 범위
      • 상관행렬 (Correlation Matrix):
        • 행과 열이 변수들을 의미하는 표
        • 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미
      • 산점도 (Scattor Plot):
        • x축고 y축이 서로 다른 두 개의 변수를 나타내는 도표

 

추론통계 (Descriptive Statistics)

  • 모집단에 대한 어떠한 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정
  • 기술통계와 개별되는 개념
  • 표본으로 전체를 추정하는 것
  • 목적: 전수조사는 시간 / 비용 / 노력의 한계가 있으니 일부(표본)을 뽑아 전체(모집단)를 추정
  • 주의: 일부(표본)을 잘 뽑아야 함
  • 장점: 전수조사를 하지 않아도 전체(모집단) 추정 가능
  • 단점: 표본 오류와 같은 불확실성이 항상 존재