※ 문자열 다루기
■ contains()
- .str.contains(문자열) : 문자열을 포함하고 있는지의 유무
# 사용 예시
> df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환
> df[df['Name'].str.contains('Mrs')] # 'Mrs'문자열을 포함하고 있는 데이터만 출력
> df.query('~Name.str.contains("Mrs")') # 'Mrs' 문자열을 포함하고 있지 않는 데이터만 출력
■ .str.replace()
- .str.replace(기존문자열, 대치문자열) : 문자열 대치
- parameter
# 사용 예시
> df['Name'].str.replace(',', '') # 컬럼 'Name'의 값들 중 ,(쉼표)를 전부 공백으로 대치
> df['Price'].str.replace('[$, ,]', '', regex = True) # 컬럼 'Price'의 값들 중, $(달러)와 ,(쉼표)를 전부 공백으로 대치
■ .str.split()
- .str.split(나눌 문자열) : 특정 문자열을 기준으로 쪼개기
- parameter
- expand = {True/False}
- n = 개수
- e.g. n = 1인 경우, 첫번째 나눌 문자열까지만 나누고, 나머지는 나누지 않음
# 사용 예시
> df['Name'].str.split(' ') # 띄어쓰기를 기준으로 쪼갬
> df[['Name1', 'Name2']] = f['Name'].str.split(' ', expand = True) # 나눈 후 각각을 새로운 컬럼에 넣어줌
> df['Name'].str.split(' ', expand = True, n = 1) # 나눈 후 새로운 컬럼에 넣어줌, 첫번째 띄어쓰기만 따로 분리함
■ upper() / lower()
- .str.upper() : 대문자로 바꾸기
- .str.lower() : 소문자로 바꾸기
# 사용 예시
> df['Name'].str.upper()
> df['Name'].str.lower()
■ .str.strip()
# 사용 예시
> df['Name'].str.strip()
댓글남기기