최대 1 분 소요

※ Missing Value (결측치)

  • 데이터에서 특정 변수의 일부 값이 누락된 상태
  • 수집 및 저장 과정에서 정보가 누락된 경우
  • 데이터가 부적절하게 기록되었을 경우


■ Missing Value 처리 방법

□ 통계 자료를 통한 대치

  • 수치형 변수의 결측치
    • NA를 제외한 평균, 중위수 등을 통해 대치
  • 범주형 변수의 결측치
    • NA를 제외한 최빈값을 통해 대치


□ 모델을 활용한 대치

  • 결측치 대치 후보값을 N개를 생성 후 이들의 평균으로 결측치를 보완
    → 이것을 다중 대치(multiple imputation)라고 하며, R에서는 대표적으로 amelia와 mice를 주로 사용


□ NA가 포함된 레코드 삭제

행 단위 삭제

  • 두 가지 조건을 만족하는 경우에만 수행할 수 있음.
    1. NA가 없는 레코드로 모델을 학습하는데 충분해야 한다.
    • 근거: NA를 제거한 데이터로 모델을 학습하기 때문
    • 결정 방법: 학습 샘플 개수에 따른 성능의 수렴 여부 확인
      1. NA가 새로운 데이터에는 없어야 한다.
    • 근거: NA를 제거한 데이터로 학습한 모델은 NA가 포함된 레코드를 분류 및 예측할 수 없기 때문
    • 결정 방법: 도메인 지식 기반


열 단위 삭제

  • 두 가지 조건을 만족하는 경우에만 수행할 수 있음.
    1. 소수 변수에 결측이 많이 포함되어 있는 경우
    2. 해당 변수들이 크게 중요하지 않음 (도메인 지식에 기반하였을 때)

댓글남기기