ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 정형, 비정형, 반정형
    Data Engineer 2023. 12. 15. 09:03
    728x90

    정형 데이터

    데이터베이스의 정해진 규칙에 맞게 데이터를 들어간 데이터 중에 수치만으로 의미 파악이 쉬운 데이터

    정형 데이터는 그 값이 의미를 파악하기 쉽고, 규칙적인 값으로 데이터가 들어갈 경우 정형 데이터라고 한다.

    id gender
    1 1
    2 2
    3 1

    남자가 1, 여자가 2라면, gender 칼럼은 수치만으로 성별을 파악할 수 있으므로 정형 데이터다.

    비정형 데이터

    정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우로, 텍스트, 음성, 영상과 같은 데이터가 비정형 데이터 범위에 속해있다.

     

     

    반정형 데이터

    HTML과 XML과 같은 포맷을 반정형 데이터의 범위에 넣을 수 있다.

    일반적으로 데이터베이스는 아니나 스키마를 가지고 있는 형태를 뜻하며, 데이터베이스의 데이터를 Dump하여 Json이나 XML 형태의 포맷으로 변경하면

    이순간 반정형 데이터가 된다는 것인데 쉽게 납득이 되질 않는다.

     

    DB vs JSON/XML

    DB : 데이터를 저장하는 장소와 스키마가 분리되어 있어 테이블을 생성하고, 데이터를 저장

     

    JSON/XML : 텍스트 파일에 Column Value 모두 출력

    728x90

    'Data Engineer' 카테고리의 다른 글

    CBD 방법론  (1) 2024.01.11
    Git add / commit / push 취소  (0) 2023.12.15
    concurrent.futures  (2) 2023.12.07
    Copy() 메서드  (1) 2023.12.03
    동기 작업과 비동기 작업  (1) 2023.12.03
Designed by Tistory.