개인공부

데이터 전처리 & 시각화 26.01.16(금)

nom_de_plume 2026. 1. 17. 17:05

데이터 시각화

챕터 4

 

데이터 시각화 중요한 이유: 

  • 데이터 시각화는 의사결정을 더욱 쉽게할 수 있도록 데이터를 잘 전달 수 있게 도와준다.

 

데이터 시각화의 목적:

  • 패턴 발견 및 이해:
    • 숨겨진 패턴 발견하고, 이해하는데 도움을 준다.
    • 그래프나 차트를 통해 데이터의 특징 시각적 파악 가능
  • 의사 결정 지원:
    • 복잡한 데이터를 이해하고 결정을 내리는데 도움을 준다.
    • 정보를 명확하게 전달하여 의사 결정 과정 지원
  • 효과적인 커뮤니케이션:
    • 데이터 분석 결과를 다른 사람들과 공유하거나 설명할 때 유용
    • 데이터를 시각적으로 보여주면 이해하기 쉽고 기억하기 쉬운 형태로 전달 가능

 

Matplotlib:

  • 파이썬에서 시각화를 위한 라이브러리 중 하나
  • 다양한 종류의 그래프를 생성하기 위한 도구 제공
    • 2D 그래픽 생성하는데 주로 사용
    • 선 그래프, 막대 그래프, 히스토그램, 산점도, 파이 차트 등 다양한 시각화 방식 지원
    • 그래프를 색상, 스타일, 레이블, 축 범위 등을 조절하여 원하는 형태로 시각화 가능
# matplotlib 라이브러리 호출
import matplotlib.pyplot as plt
# 2차원 데이터 시각화
plt.plot()

 

 

plot():

DataFrame 객체에서 데이터를 시각화하는데 사용

 

Pandas vs Matplotlib

  • Pandas.plot(): 데이터프레임에서 바로 시각화할 때 편리함 (내부적으로 Matplotlib을 사용함).
  • Matplotlib.pyplot.plot(): 그래프의 세부적인 컨트롤이 필요할 때 주로 사용함

 

스타일 설정:

  • plot() 메서드 호출할 때 다양한 스타일 옵션 사용하여 그래프 스타일 설정 가능
  • color, linestyle, marker 등의 파라미터를 사용하여 선의 색상, 스타일, 마커 변경 가능
    • color(색상):
      • 문자열로 지정 가능
      • 기본 색상 이름('blue', 'green', 'red', 'cyan', 'magenta', 'yellow', 'black', 'white' 등)으로 지정 가능
      • RGB 값(#00ff00)을 직접 지정 가능
    • linestyle(선 스타일):
      • '-'(실선), '--'(대시선), ':'(점선), '-.'(점-대시선) 등으로 지정 가능
    • marker(마커):
      • 데이터 포인트를 나타내는 기호
      • 'o'(원), '^'(삼각형), 's'(사각형), '+'(플러스), 'x'(엑스) 등 다양한 기호로 지정 가능

 

범례 추가:

  • legend() 메서드 사용
    • 그래프 범례 추가

 

축, 제목 입력:

  • set_xlabel(), set_ylabel(), set_title() 메서드 사용
  • x축과 y축의 레이블 및 그래프 제목 추가 가능

 

텍스트 추가:

  • text() 메서드 사용
  • 그래프의 특정 위치에 텍스트 추가 가능

 

** 파라미터(color, linestyle, marker, label 등)과 함수(xlabel(), ylabel(), title(), legend(), text() 등)을 plot() 함수에 한꺼번에 설정 가능

 

크기 조정:

  • plt.figure() 함수 사용
  • Figure 객체 생성하고, 이후에 figsize 매개변수를 이용하여 원하는 크기로 설정 가능

 

유형:

그래프 유형 자료 유형 특징 기본 문법
Line Plot 연속형 데이터 데이터의 변화 및 추이를 시각화 plt.plot()
Bar Plot 범주형 데이터 카테고리 별 값의 코기를 시각적으로 비교 plt.bar()
Histogram 연속형 데이터 데이터 분포, 빈도, 패턴 등을 이해 plt.hist()
Pie Chart 범주형 데이터의 비율 범주별 상대적 비율을 부채꼴 모양으로 시각화 plt.pie()
Box Plot 연속형 데이터의 분포 중앙값, 사분위수, 최소값, 최대값, 이상치 확인 plt.boxplot()
Scatter Plot 두 변수 간 관계 변수 간의 관계, 군집, 이상치 등 확인 plt.scatter()