카테고리 없음

전처리 재정립 및 eda_2026.04.23(목)

nom_de_plume 2026. 4. 23. 23:41

[회의록]

  • 일시: 2026-04-23 오전 9:51
  • 회의 목적: 분석 진행상황 점검, 역할 분담 확인, 제출 일정 정리
  1. 4월 22일자 EDA 정리
    • DAU 추이에서 2025-08-09, 2025-08-20 두 번의 주요 spike가 확인됨
    • 2025-08-09는 신규 유저 비중이 높아 신규 획득 중심 spike로 해석함
    • 2025-08-20은 기존 유저 비중이 높아 복귀 유저 재활성화 중심 spike로 해석함
    • 2025-08-09 spike는 특정 광고 매체에 유입이 집중되었을 가능성이 높다고 판단함
    • 다만 2025-08-09 유입 유저의 이후 방문 패턴을 보면 1회 방문 비중이 매우 높아, 유입 규모 대비 유지력은 낮을 수 있다고 봄
    • 요일별 평균 DAU는 금요일·토요일이 높고 월요일이 낮아, 날짜 성과 해석 시 요일 효과를 보정해야 한다고 정리함
    • 최근 30일 재방문 주기 분포를 바탕으로 첫 재방문 유도가 리텐션의 핵심 분기점이라는 점을 확인함
    (2). 광고성과 테이블
    • 광고별 클릭수와 완료수는 모두 우측 꼬리 분포를 보여 소수 상위 광고가 전체 성과를 끌어가는 구조로 정리함
    • 전환율은 0% 부근과 100% 부근에 광고가 몰리는 양극화 구조를 보인다고 정리함
    • 재참여 유형별로는 NONE이 클릭은 많지만, REJOINABLE은 전환율이 매우 낮고, ADS_CODE_DAILY_UPDATE는 클릭은 적어도 전환율은 가장 높게 나타남
    • 노출 상위 광고가 클릭수와 전환율 모두에서 높게 나타나 노출 순위 효과가 강할 가능성을 확인함
    • 리워드 금액이 커질수록 클릭은 늘 수 있으나 전환율은 오히려 떨어지는 경향이 있다고 정리함
    • CTIT는 강한 우측 꼬리 구조를 보여, 대부분 광고는 빠르게 완료되지만 일부 광고는 완료까지 긴 시간이 걸리는 구조라고 해석함
    (3). 광고운영캘린더 테이블
    • 8/13~8/18 구간은 클릭 급증 대비 완료가 따라오지 못하고 CVR이 급락하는 특이구간으로 확인함
    • 해당 구간 상위 클릭 광고 대부분이 게임 광고이며, 일부는 수백만 클릭에도 완료가 거의 없어 클릭 정의 자체가 광고군마다 다를 수 있다고 판단함
    • 클릭수 상위 광고와 완료수 상위 광고는 다르므로 클릭량을 성과 대표 지표로 쓰는 것은 위험하다고 정리함
    • CVR 상위 광고는 최소 클릭 수 기준 없이 보면 소표본 100% 광고가 다수 포함되므로 모수 필터링이 반드시 필요하다고 정리함
    • 요일별 성과 차이는 존재하지만, 그 차이가 요일 자체의 효과인지, 아니면 그날 집행된 광고 구성 차이에서 비롯된 것인지를 구분하지 않은 채 운영 정책으로 연결하는 것은 위험하다고 판단함.
    (4). 클릭-완료 팩트테이블
    • 원본 데이터에는 전체 성과를 왜곡하는 비정상 클릭이 상당량 포함되어 있다고 판단함
    • 문제 ads_idx를 제거하면 클릭은 대량 감소하지만 완료 수와 마진은 거의 유지되어, 일부 클릭이 실질 성과 없이 분모만 키우고 있었다고 정리함
    • 다만 단순 ads_idx 제거만으로는 부족했고, 이후 날짜 × 광고 조합 기준 IQR 상단 이상탐지로 정제 기준을 고도화해야 한다는 결론에 도달함
    • 정제본은 효율 분석에는 유리하지만 실제 규모 일부를 희생하므로, 원본은 규모 확인용, 정제본은 효율 분석용으로 병행 관리해야 한다고 정리함
    • 웹과 앱은 모수 구조가 달라 분리 해석이 필요하다고 봄
    • 시간대는 효율형, 물량형, 고마진형으로 나누어 운영 전략을 달리해야 한다고 정리함
    • 날짜 평가는 총마진과 평균마진을 함께 봐야 하며, 많이 번 날과 잘 번 날은 다를 수 있다고 정리함
    (5). 재무테이블
    • 전체 수익 구조는 분산형이 아니라 집중형 구조라고 정리함
    • 소수 고마진 사례, 특정 광고 유형, 특정 카테고리, 특정 보상 구간, 일부 상위 광고 및 매체가 전체 수익을 끌고 가는 구조로 해석함
    • 광고 유형별로는 CPS(물건구매) 설치형이 핵심 축으로 확인됨
    • 카테고리별로는 쇼핑 계열이 가장 강한 수익 축으로 보인다고 정리함
    • 보상 금액 구간별로는 고보상 구간이 총마진의 핵심 축으로 나타남
    • 상위 광고와 상위 매체 의존도가 높아 집중 리스크 관리가 필요하다고 판단함
    • 시간대별로 적립 건수 상위 구간과 총마진 상위 구간이 다르므로, 유입 확대 시간대와 수익 극대화 시간대를 분리 관리해야 한다고 정리함
    (6). 정리
    • DAU spike는 단순히 유저 수가 많았던 현상이 아니라, 신규 획득형 spike와 복귀형 spike로 성격이 다르다고 정리함
    • 유입 규모가 크다고 광고 효율이 자동으로 좋아지는 것은 아니며, 유입된 유저가 어떤 광고 구조를 만났는지가 더 중요하다고 판단함
    • 광고 성과는 클릭량보다 구조 차이의 영향을 크게 받으므로, 광고군 분리 없이 전체 평균을 보면 왜곡될 수 있다고 정리함
    • 현재 운영에서 가장 위험한 것은 평균 착시이며, 평균 DAU·평균 클릭·평균 CVR·평균 마진만 보면 실제 핵심 구조를 놓칠 수 있다고 정리함
    • 서비스 운영은 유입, 광고 퍼널, 정제 기준, 수익 구조가 서로 강하게 연결된 시스템으로 봐야 한다는 점을 확인함
    • 앞으로의 운영 핵심은 전체 평균 관리가 아니라 정상 효율 구간, 핵심 수익 구간, 첫 재방문 유도 구조를 따로 관리하는 방향으로 판단함
    • 따라서 향후 분석과 운영은 단순 평균 비교가 아니라, 코호트 분리, 광고군 분리, 정제 규칙 반영, 핵심 수익 구간 집중 관리 방향으로 진행하기로 정리함
  2. (1). 유저 유입 테이블
  3. 주요 논의 사항
  • 애즈타입 카테고리 모델링은 관후님이 담당하며, 버트토픽 활용 방향으로 진행하기로 함.
  • 메인 퍼널 분석 EDA는 혜림님이 담당하기로 함.
  • 관후님은 전처리 피드백 수정 사항을 반영하여 공유하기로 함.
  • 나머지 팀원들은 각자 맡은 분석 테이블의 EDA를 추가로 점검하기로 함.
  • 각자 진행 중인 분석 테이블 EDA이 완료되면 통계 분석 단계로 이어가는 방향으로 진행.
  1. 이상치 관련
  • 기본적으로 수익이 발생한 행은 남겨두는 게 맞음
  • 다만, 완료율 분석시에는 모두 삭제
  • 재무 분석은 문제 행을 태깅해서 수익이 발생한 행도 삭제한 버전과 삭제하지 않은 버전 두 개를 비교.
  • 혜림님이 업로드 한 이상치제거IPYNB파일 각자 환경이나 df명에 맞게 변형해서 사용.
  • 전처리 파일에 이상치제거 코드도 추가(관후)
  1. 일정 및 협업 계획
  • 내일 제출 예정인 중간보고서는 오늘 저녁에 먼저 작성하여 제출하기로 함.
  • 중간보고서 작성은 각자 필요한 내용을 미리 생각해온 뒤, 오후 7시에 함께 작성하기로 함.
  • 각자 수행한 분석 테이블 EDA 결과는 오후 2시에 공유하기로 함.
  • EDA 진행 중 발견한 주요 내용, 해석 포인트, 이상치 판단 기준도 함께 공유하기로 함.
  1. 역할 분담
  • 관후님: 애즈타입 카테고리 모델링, 전처리 피드백 수정 및 공유
  • 혜림님: 메인 퍼널 담당
  • 기타 팀원: 각자 맡은 분석 테이블 EDA 추가 점검
  1. 오늘 계획 정리
  • 오전~2시: 각자 EDA 수행 및 추가 탐색
  • 오후 2시: 각자 EDA 결과 공유
  • 오후 7시: 중간보고서 공동 작성 및 제출 내용 정리