최대 1 분 소요

※ KNN (K-Nearest Neighbor, K-최근접 이웃)

  • 가장 가까이 있는 데이터 클래스에 속한다고 보는 방법
  • 가까이 있는 데이터 1개를 보면 1-최근접 이웃
  • 가까이 있는 데이터 k개를 보면 k-최근접 이웃
  • 유클리디안 거리를 사용하므로 피쳐는 연속형 변수여야함


■ parameter

  • 이웃 수(k): 홀수로 설정, 특징 수 대비 샘플 수가 적은 경우에는 k를 작게 설정하는 것이 바람직함
  • 거리 및 유사도 척도
    • 맨하탄 거리: 모든 변수가 서열형 혹은 정수인 경우
    • 코사인 유사도: 방향성이 중요한 경우 (e.g. 상품 추천 시스템)
    • 매칭 유사도: 모든 변수가 이진형이면서 희소하지 않은 경우
    • 자카드 유사도: 모든 변수가 이진형이면서 희소한 경우
    • 유클리드 거리: 그 외


kappa 통계량

  • $\cfrac{p_{0}-p_{e}}{1-p_{e}}$


  • $p_{0}$ : 관측된 정확도
  • $p_{e}$ : 기대정확도
  • -1 < < 1
  • 1에 가까울수록 좋음

댓글남기기