※ Tidy Data
- = Long Format Data(Table)
- 데이터 전처리에 걸리는 시간을 최소하하기 위한 표준화된 데이터 형태
- 데이터를 행 방향으로 구성하는 형식으로, 각 행은 하나의 데이터 관찰값을 나타냄
- 필요 조건
- Each variable forms a column. 각 변수는 열을 형성
- Each observation forms a row. 각 관찰값은 행을 형성
- Each type of observational unit forms a table. 각 유형의 관찰 단위(값)는 테이블을 구성
장점
- 데이터가 sparse하고, 추가 변수가 있을 때 잘 확장될 수 있음
- 데이터를 분석하기에 효과적임
- 시각화, 데이터 저장, 데이터 변환에 용이함
단점
Example Data
학생 |
과목 |
점수 |
A |
수학 |
80 |
A |
과학 |
75 |
A |
영어 |
85 |
B |
수학 |
70 |
B |
과학 |
65 |
B |
영어 |
75 |
… |
… |
… |
- 각 행은 특정 학생의 특정 과목에 대한 점수를 나타냄
※ Untidy Data
- = Wide Format Data(Table)
- 변수가 열로 구성되는 형식으로, 각 행은 하나의 관측치를 나타냄
- 여러 변수가 하나의 열에 저장된 데이터
- 변수가 열과 행 모두에 저장된 데이터
- 여러 유형의 다른 관측 단위가 동일한 테이블에 저장된 데이터
- 단일 관측 단위가 여러 테이블에 저장된 데이터
장점
- 각 관측치의 모든 변수가 하나의 행에 포함되어 있기 때문에 해석하기 쉬움
단점
- 데이터가 sparse하거나 추가 변수가 있는 경우에는 확장하기 어려움
Example Data
학생 |
수학 |
과학 |
영어 |
A |
80 |
75 |
85 |
B |
70 |
65 |
75 |
… |
… |
… |
… |
- 각 행은 특정 학생의 성적을 나타냄
- 각 열은 해당 학생의 특정 과목에 대한 점수를 나타냄
댓글남기기