최대 1 분 소요



※ Outlier (이상치)

  • 대부분의 데이터와 현저하게 다른 값을 가지는 값
  • 데이터 내에서 통계적으로 특이한 값
  • 데이터 분포를 왜곡할 수 있음
  • 무작위 오류, 측정 오류, 실제로 특이한 사건에 의해 발생


■ Outlier 탐지 방법

□ 통계적인 기법 활용

  • histogram
    • 양 끝단 0.15%를 outlier로 정의
  • Box plot
    • IQR 활용
      • 1사분위수 - 1.5 * IQR 미만인 값
      • 3사분위수 + 1.5 * IQR 초과인 값
      • 사용이 간편하지만, 이상치를 단일 변수만으로 판단하기 어려운 경우도 있음
  • Scatter plot
  • Principal component
  • Clustering
  • 모형적합 후, residual plot(잔차그림)


■ Outlier 처리 방법

  • 수정
    • 입력 시, 체계적인 오류일 경우 수정
    • 해당 변수의 대표값이나 상/하한값으로 조정하여 대체
  • 제거
    • 일정 기준 이상/이하는 제거
  • 합치기
    • 범주형일 때, 패턴이 비슷한 범주로 합침
  • 변수 변환

  • 그냥 놔두기
    • 변수변환으로도 해결이 안될경우
  • 별도 분석
    • 이상치를 포함한 데이터와, 포함하지 않은 데이터로 분리하여 별도 분석 수행

댓글남기기