[Python] imblearn.under_sampling / NearMiss (언더 샘플링)
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ over_sampling ■ SMOTE Synthetic Minority Over_sampling Technique 소수 클래스의 샘플을 증가시키기 위해 사용 소수 클래스 샘플을 임의로 선택하고, 선택된 샘플의 이웃 가운데 하나의 샘플을 또 임의로 선택하여 그 중...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ impute 데이터 안의 NA값을 대치하는 데 사용 하나의 데이터프레임 안에 연속형변수와 범주형변수 둘 다 있을 경우 데이터를 따로 나누어 진행. e.g. 범주형변수에는 most_frequent, 연속형변수에는 mean 적용… 사용...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...