[Python] Handling string data in Pandas

2024-06-22 1 분 소요

※ 문자열 다루기

■ contains()

.str.contains(문자열) : 문자열을 포함하고 있는지의 유무

# 사용 예시
> df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환
> df[df['Name'].str.contains('Mrs')] # 'Mrs'문자열을 포함하고 있는 데이터만 출력

> df.query('~Name.str.contains("Mrs")') # 'Mrs' 문자열을 포함하고 있지 않는 데이터만 출력

■ .str.replace()

.str.replace(기존문자열, 대치문자열) : 문자열 대치
parameter
- regex = {True / False}
  - 기존 문자열을 정규표현식으로 인식할지?

# 사용 예시
> df['Name'].str.replace(',', '') # 컬럼 'Name'의 값들 중 ,(쉼표)를 전부 공백으로 대치

> df['Price'].str.replace('[$, ,]', '', regex = True) # 컬럼 'Price'의 값들 중, $(달러)와 ,(쉼표)를 전부 공백으로 대치

■ .str.split()

.str.split(나눌 문자열) : 특정 문자열을 기준으로 쪼개기
- parameter
  - expand = {True/False}
    - 출력된 결과를 각각의 열로 저장할지 여부
  - n = 개수
    - e.g. n = 1인 경우, 첫번째 나눌 문자열까지만 나누고, 나머지는 나누지 않음

# 사용 예시
> df['Name'].str.split(' ') # 띄어쓰기를 기준으로 쪼갬

> df[['Name1', 'Name2']] = f['Name'].str.split(' ', expand = True) # 나눈 후 각각을 새로운 컬럼에 넣어줌

> df['Name'].str.split(' ', expand = True, n = 1) # 나눈 후 새로운 컬럼에 넣어줌, 첫번째 띄어쓰기만 따로 분리함

■ upper() / lower()

.str.upper() : 대문자로 바꾸기
.str.lower() : 소문자로 바꾸기

# 사용 예시
> df['Name'].str.upper()
> df['Name'].str.lower()

■ .str.strip()

양 옆의 공백 제거

# 사용 예시
> df['Name'].str.strip()

Twitter Facebook LinkedIn

[Python] Handling string data in Pandas

※ 문자열 다루기

■ contains()

■ .str.replace()

■ .str.split()

■ upper() / lower()

■ .str.strip()

공유하기

댓글남기기

참고

[Python] Perceptron 학습 알고리즘 구현하기 (퍼셉트론)

[Paper] DiGress

[Deep Learning] Perceptron (퍼셉트론)

[Python] Tensor (텐서, 선형대수학)