카테고리 없음

전처리 기준 확립_2026.04.21(화)

nom_de_plume 2026. 4. 21. 23:57

[회의록]

  • 일시: 2026-04-21 오전 10:20 ~ 오후 20:00
  • 회의 주제: 전처리 기준 확정 및 EDA 진입 전 정리

 

  1. 오늘 진행 방향
  • 각자 맡은 테이블 전처리를 마무리한다.
  • 전처리 완료 후 바로 EDA로 넘어가기보다, 한 번 더 점검과 피드백을 거친 뒤 진행한다.
  • 이후 분석에 필요한 컬럼이 추가로 생기면, 목적에 맞춰 분석 테이블을 보완하는 방식으로 진행한다.
  1. 기준 날짜 사용 원칙
  • click_date는 클릭 수, DAU, 재방문 등 행동 관찰 지표 기준으로 사용한다.
  • regdate는 완료 수, 적립 시점, 완료 기준 성과, 마진 발생 시점 기준으로 사용한다.
  • 같은 테이블 안에 두 날짜가 함께 있더라도, 해석 기준은 분리해서 사용한다.
  1. 재무 테이블 전처리 방향
  • 재무 테이블에서는 click_date와 regdate 기준의 날짜·시간 파생 컬럼을 생성한다.
  • 클릭 기준과 완료 기준 모두에서 요일 컬럼을 생성해 시간 흐름 분석이 가능하도록 정리한다.
  • 비용 컬럼은 소액이라는 이유만으로 일괄 제거하지 않는다.
  • 대신 ads_type=9, ads_save_way='모든 서브퀘스트 완료', mda_idx=270, adv_cost=0, show_cost=0 조건의 특수 집단은 별도 플래그를 생성하고, 마진 분석에서는 일반 집단과 분리해 본다.
  • 즉 전체 데이터를 삭제하는 방식이 아니라, 마진 해석을 왜곡할 수 있는 특수 그룹만 따로 분리하는 보수적 기준을 적용한다.
  1. 광고 목록 테이블 전처리 방향
  • ads_summary 텍스트를 활용해 ads_action 파생 컬럼을 생성한다.
  • 광고 행동 유형은 구매형, 설치형, 참여형, 실행형 기준으로 구분한다.
  • 여러 행동 키워드가 동시에 잡히거나 분류가 애매한 경우는 기타로 처리한다.
  • 이 과정은 ads_type이나 ads_category를 대체하는 것이 아니라, 행동 기준의 보조 해석용 컬럼을 만드는 목적이다.
  1. 원본 테이블 형변환 방향
  • 시간대별 광고 보고서, 광고 참여 정보, 광고 적립 정보, 광고 목록 테이블은 날짜·시간 형식을 분석 가능한 타입으로 통일한다.
  • 네트워크나 광고 유형처럼 범주형으로 보는 컬럼은 범주형 타입으로 변환해 이후 분석에서 일관되게 사용할 수 있도록 정리한다.
  1. 유저 일자 활동 테이블 전처리 방향
  • 유저 일자 활동 테이블에서는 first_click, last_click을 datetime으로 정리한다.
  • 시작 시각, 종료 시각, 요일 컬럼을 생성해 유저의 일자별 활동 흐름을 볼 수 있게 한다.
  • ctit 관련 집계값이 모두 결측이면 미전환, 하나라도 값이 있으면 전환으로 보는 전환 여부 플래그를 생성한다.
  1. 광고 운영 캘린더 테이블 전처리 방향
  • click_date, ads_sdate, ads_edate를 날짜형으로 변환한다.
  • ads_type, ads_category는 범주형으로 변환하고, ads_day_cap은 boolean으로 변환한다.
  • click 기준 요일 컬럼을 생성한다.
  • 클릭 존재 여부, 요일 존재 여부, campaign_n_day 결측 여부, ads_sdate 이상 여부, ads_edate 이상 여부를 확인할 수 있는 플래그를 만든다.
  • campaign_n_day가 음수인 값은 제거하여 운영 기간 해석이 가능한 형태로 정리한다.
  1. 광고성과 테이블 전처리 방향
  • ads_type, ads_category, ads_rejoin_type은 범주형으로 변환한다.
  • avg_ctit와 total_reward_cost는 원본 결측을 유지한다.
  • 대신 결측 여부 자체를 분석에 활용할 수 있도록 NULL 플래그 컬럼을 추가한다.
  • ads_order는 상·중·하 구간으로 나누어 노출순서 효과를 비교할 수 있도록 정리한다.
  1. 메인 퍼널 및 클릭-완료 테이블 전처리 방향
  • main_funnel과 fact_click_reward는 날짜·시간 컬럼을 분석 가능한 타입으로 변환한다.
  • 광고 관련 범주형 컬럼도 일관되게 변환한다.
  • 완료 여부, 지연 완료 여부, 당일 완료 여부 등 불리언 성격 컬럼은 boolean 타입으로 맞춘다.
  • 이를 통해 퍼널 분석과 클릭-완료 연결 분석이 가능한 기본 형태를 만든다.
  1. 이번 전처리 파일 기준 정리
  • 이번 전처리에서는 원본 데이터를 크게 삭제하기보다, 형변환·파생컬럼 생성·플래그 생성 중심으로 정리한다.
  • 비용값은 일괄 제거하지 않고, 해석을 왜곡할 수 있는 특수 마진 그룹만 분리한다.
  • 광고 행동 유형은 ads_summary 기반 ads_action 컬럼으로 보조 분류한다.
  • 결측치는 무리하게 대체하지 않고, 결측 여부 자체를 정보로 활용할 수 있게 플래그 중심으로 정리한다.
  • 전처리 완료 후 EDA로 넘어가기 전에 한 번 더 검토 후 진행한다.

[문제 상황]

(1). ads_action 분류 기준이 아직 확정되지 않음

  • 광고 설명문에 들어 있는 단어를 기준으로 행동유형을 나누고 있으나, 어떤 단어를 넣느냐에 따라 결과가 크게 달라지고 있다.
  • 특히 2번 유형(단순 방문·둘러보기)과 3번 유형(회원가입, 저장, 참여 등 추가 행동)의 경계가 애매해, 기준을 조금만 바꿔도 분포가 크게 흔들리는 상황이다.
  • 현재는 원래 ads_type이 1번, 12번인 경우는 그대로 유지하고, 나머지는 설명문 키워드로 분류하는 방향을 잡았지만, 이 기준도 실제 문구를 더 보면서 보완이 필요하다.
  • 즉, ads_action은 방향은 정했지만 아직 최종 확정 단계는 아니며, 추가 검토가 필요한 상태다.

to_channel 분류도 단순 키워드만으로는 한계가 있음

(2). 광고 설명문에는 트위터, 페이스북, 유튜브 등 채널명이 적혀 있어도, 실제 참여 채널이 아니라 공식 사이트·커뮤니티·안내 링크인 경우가 있다.

  • 또한 한 광고 안에 여러 채널이 함께 적혀 있는 경우도 있어, 어떤 채널로 봐야 하는지 단순하게 정하기 어렵다.
  • 따라서 채널명이 보인다고 바로 분류하면 오분류 가능성이 있어, 실제 문구와 링크 형태를 함께 보면서 기준을 더 정교하게 잡아야 한다.

(3). 현재 정리

  • ads_action과 to_channel 모두 현재 기준만으로 바로 확정하기에는 위험하다.
  • 우선은 초안 기준으로 작업하되, 실제 문구 사례를 조금 더 확인하고 튜터 피드백까지 반영한 뒤 최종 기준을 확정하는 것이 적절하다.
  1. 내일 계획
  • 검토를 받고, 전처리 완료 테이블을 기준으로 EDA를 진행한다.
  • 분석 중 추가로 필요한 컬럼이나 조건이 생기면 해당 목적에 맞춰 분석용 테이블을 보완한다.