keep: 중복이 있는 행의 어느 부분을 남길 것인지 {‘first’, ‘last’, ‘false’}
first: 첫 번째 행을 남김
last 마지막 행을 남김
false: 중복 행을 모두 제거
# 기본 구조
>df.drop_duplicates(subset,keep,…)
# 사용 예시
>df=pd.DataFrame({"A":[1,2,3,1,2,3],"B":[3,2,1,3,2,1],"C":[1,2,3,4,3,2]})>dfABC013112222313313442235312>df.drop_duplicates(subset=['A'])ABC013112222313>df.drop_duplicates(subset=['A'],keep='last')ABC313442235312
■ .unique()
series나 dataframe의 특정 컬럼에서 고유한 값들을 배열 형태로 반환
NaN 값들도 포함하여 반환함
출력 결과의 데이터 타입: ndarray
범주형 변수와 연속형 변수를 판단하는데 사용 가능함
# e.g.
>S=pd.Series(np.random.randint(0,10,100))>S.unique()array([7,4,8,9,1,5,3,0,6,2])
■ .value_counts()
series의 구성 원소의 빈도를 순서대로 출력
매개변수
ascending: 오름차순으로 정렬할 것인지 여부
normalize: 빈도 대신 비율을 출력할 것인지 여부
>S=pd.Series(np.random.randint(0,10,100))# e.g.
>S.value_counts()21541351271161091009183785>S.value_counts(normalize=True)20.1540.1350.1270.1160.1090.1000.0910.0830.0780.05
■ .rank(method = ‘’)
컬럼의 값들에 순위를 부여함
# e.g. colA의 값들 중, 같은 값을 가지는 경우에 먼저 나오는 값을 우선적으로 순위 부여
>df['colA'].rank(method='first')
>pd.set_option('display.max_rows',num)# num 만큼 행 출력
>pd.set_option('display.max_rows',None)# 모든 행 출력
출력할 열 개수 지정
>pd.set_option('display.max_columns',num)# num 만큼 열 출력
>pd.set_option('display.max_columns',None)# 모든 열 출력
■ pd.get_dummies()
범주형 데이터를 이진(one-hot) 인코딩 형태로 변환하는 데 사용
parameter
drop_first: 첫 번째 범주를 버림. 더미 변수 간 다중 공선성을 피할 수 있음 {True/False}
columns: 특정 변수만 더미 변수로 만들고 싶을 때 지정
# 기본 구조
>pd.get_dummies(df,columns,first_drop,...)
# 사용 예시
>df=pd.DataFrame({'Color':['Red','Blue','Green','Red','Blue'],'Size':['S','M','L','M','L'],'Price':[10,20,15,10,20]})>dfColorSizePrice0RedS101BlueM202GreenL153RedM104BlueL20>pd.get_dummies(df)PriceColor_BlueColor_GreenColor_RedSize_LSize_MSize_S010FalseFalseTrueFalseFalseTrue120TrueFalseFalseFalseTrueFalse215FalseTrueFalseTrueFalseFalse310FalseFalseTrueFalseTrueFalse420TrueFalseFalseTrueFalseFalse>pd.get_dummies(df,drop_first=True)PriceColor_GreenColor_RedSize_MSize_S010FalseTrueFalseTrue120FalseFalseTrueFalse215TrueFalseFalseFalse310FalseTrueTrueFalse420FalseFalseFalseFalse>pd.get_dummies(df,columns=['Color'],drop_first=True)SizePriceColor_GreenColor_Red0S10FalseTrue1M20FalseFalse2L15TrueFalse3M10FalseTrue4L20FalseFalse
출처: https://arxiv.org/pdf/2209.14734
※ DiGress
a discrete denoising diffusion model for generating graphs with categorical node and edge attributes
...
댓글남기기