1 분 소요



※ Tidy Data

  • = Long Format Data(Table)
  • 데이터 전처리에 걸리는 시간을 최소하하기 위한 표준화된 데이터 형태
  • 데이터를 행 방향으로 구성하는 형식으로, 각 행은 하나의 데이터 관찰값을 나타냄
  • 필요 조건
    • Each variable forms a column. 각 변수는 열을 형성
    • Each observation forms a row. 각 관찰값은 행을 형성
    • Each type of observational unit forms a table. 각 유형의 관찰 단위(값)는 테이블을 구성

장점

  • 데이터가 sparse하고, 추가 변수가 있을 때 잘 확장될 수 있음
  • 데이터를 분석하기에 효과적임
  • 시각화, 데이터 저장, 데이터 변환에 용이함

단점

  • 데이터가 너무 길어짐

Example Data

학생 과목 점수
A 수학 80
A 과학 75
A 영어 85
B 수학 70
B 과학 65
B 영어 75
  • 각 행은 특정 학생특정 과목에 대한 점수를 나타냄



※ Untidy Data

  • = Wide Format Data(Table)
  • 변수가 열로 구성되는 형식으로, 각 행은 하나의 관측치를 나타냄
  • 여러 변수가 하나의 열에 저장된 데이터
  • 변수가 열과 행 모두에 저장된 데이터
  • 여러 유형의 다른 관측 단위가 동일한 테이블에 저장된 데이터
  • 단일 관측 단위가 여러 테이블에 저장된 데이터

장점

  • 각 관측치의 모든 변수가 하나의 행에 포함되어 있기 때문에 해석하기 쉬움

단점

  • 데이터가 sparse하거나 추가 변수가 있는 경우에는 확장하기 어려움

Example Data

학생 수학 과학 영어
A 80 75 85
B 70 65 75
  • 각 행특정 학생의 성적을 나타냄
  • 각 열은 해당 학생의 특정 과목에 대한 점수를 나타냄

댓글남기기