변수 (Variable)
확률 변수 (Random Variable)
- 특정 값(범위)을 확률에 따라 취하는 변수
- e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수
■ 변수의 치우침
- 변수의 치우침을 해결하는 기본 아이디어는 값간 차이를 줄이는데 있음
- 대표적인 처리 방법
- Log Transform
- Square Root Transform
□ 왜도 (Skewness)
- 변수 치우침을 확인하기 위한 척도
- 분포의 비대칭 정도를 나타내는 통계량
- 주로 절대값이 1.5 이상이면 데이터가 치우쳤다고 판단함
□ 첨도 (Kurtosis)
- 분포의 뾰족한 정도를 확인하기 위한 척도
- 분포의 꼬리의 두꺼움 또는 얇음의 측정하는 통계량
- 주로 첨도가 3 이상이면 데이터가 치우쳤다고 판단함
■ 스케일 (Scale)
- 변수의 단위를 의미
- 변수간 스케일이 다르면, 스케일이 큰 변수에 의해 혹은 스케일이 작은 변수에 의해 모델이 영향을 받을 수 있음
- 스케일이 큰 변수에 영향을 받는 모델: k-최근접 이웃
- 스케일지 작은 변수에 영향을 받는 모델: 회귀모델, 서포트 벡터 머신, 신경망
- 스케일에 영향을 받지 않는 모델: 나이브베이즈, 의사결정나무(이진 분지에 한함)
□ 스케일링 (Scaling)
- 변수간 차이를 줄이는 방법
- Standard Scaling
- $\cfrac{x-\mu}{\sigma}$
- feature의 정규 분포를 가정하는 모델에 사용 (회귀모델, 로지스틱모델)
- Min-Max Scaling
- $\cfrac{x-\min(x)}{\max(x)-\min(x)}$
- 특정 분포를 가정하지 않는 모델에 사용 (신경망, k-최근접 이웃)
댓글남기기