내일배움캠프

[내일배움캠프] TIL 17일차 26.01.15(목)

nom_de_plume 2026. 1. 15. 20:51

Pandas vs SQL

구분 Pandas SQL
정체성 파이썬 라이브러리(메모리 기반) 데이터베이스 관리 언어(디스크 기반)
데이터 위치 내 컴퓨터의 RAM(메모리) 원격 서버의 Database(저장소)
강점 복잡한 계산, 시각화, 머신러닝 연동 대용량 데이터 추출, 안정적인 저장/관

 

① 데이터 선택 및 필터링

  • SQL: SELECT * FROM df WHERE age >= 30
  • Pandas: df[df['age'] >= 30]

② 정렬

  • SQL: ORDER BY score DESC
  • Pandas: df.sort_values(by='score', ascending=False)

③ 집계 (Groupby)

  • SQL: SELECT class, AVG(score) FROM df GROUP BY class
  • Pandas: df.groupby('class')['score'].mean()

④ 조인 (Merge)

  • SQL: SELECT * FROM A JOIN B ON A.id = B.id
  • Pandas: pd.merge(A, B, on='id', how='inner')

공통점

  1. 표(Table) 형식의 데이터: 두 도구 모두 행(Row)과 열(Column)로 구성된 2차원 구조
  2. 관계형 논리: Join(Merge), Union(Concat), Groupby 등 데이터를 합치고 요약하는 논리가 동일

차이점 (Pandas에만 있는 것)

  • Index 개념: SQL은 행 번호가 중요하지 않지만, Pandas는 Index를 통해 데이터의 위치를 관리하고 정렬(sort_index)
  • 순차적 처리: Pandas는 위에서 아래로 코드가 실행되는 절차적 방식이라 중간 결과물을 확인하기 쉬움.
  • 유연한 자료형: 한 컬럼에 리스트나 딕셔너리를 넣는 등 파이썬의 유연함을 그대로 활용 가능

 

 

클래스_문풀날_연습문제:

https://colab.research.google.com/drive/1KXUPPr-bhqY7dagRZBPJsDN_foYGGlWs?usp=sharing

 

함수|모듈_문풀날_연습문제_전재민.ipynb

Colab notebook

colab.research.google.com

 

파이썬 전처리 & 시각화 강의 정리:

https://jmjeoon1004.tistory.com/93

 

데이터 전처리 & 시각화 26.01.15(목)

Pandas챕터 3-5 ~ 8 불리언 인덱싱 (Boolean Indexing)특정 조건에 맞는 행만 선택하는 방식True/False 값을 가진 리스트(Series)를 전달하여 '참'인 데이터만 추출조건을 이용하여 데이터프레임에서 특정 조

jmjeoon1004.tistory.com

 

 

오늘 한 일

- 파이썬 세션 듣기

- 데이터 전처리 & 시각화 챕터 3-5 ~ 8 수강 및 정리

- sql 알고리즘 코드카타 3개

- Python 코드카타 3개

 

26.01.16() 할 일

- 파이썬 버전 관리 세션 듣기

- 데이터 전처리 & 시각화 챕터 4 수강 및 정리

- sql 알고리즘 코드카타 3개

- Python 코드카타 3개

 

오늘의 회고

오늘은 전처리를 다 봤다. 정리할수록 SQL과 유사하다. SQL을 생각하면서 판다스를 하니까 오히려 편한것 같다. 코드의 차이로 외워할 것은 늘었지만 이는 나에게 나아갈 길을 주는 것. 벽인 줄 알았던 곳이 문이라면 그 곳을 열고 나가야 성장하는 것이다. 나는 또 한발 나아가기 위해 문고리를 잡는다.