-
정형, 비정형, 반정형Data Engineer 2023. 12. 15. 09:03728x90
정형 데이터
데이터베이스의 정해진 규칙에 맞게 데이터를 들어간 데이터 중에 수치만으로 의미 파악이 쉬운 데이터
정형 데이터는 그 값이 의미를 파악하기 쉽고, 규칙적인 값으로 데이터가 들어갈 경우 정형 데이터라고 한다.
id gender 1 1 2 2 3 1 남자가 1, 여자가 2라면, gender 칼럼은 수치만으로 성별을 파악할 수 있으므로 정형 데이터다.
비정형 데이터
정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우로, 텍스트, 음성, 영상과 같은 데이터가 비정형 데이터 범위에 속해있다.
반정형 데이터
HTML과 XML과 같은 포맷을 반정형 데이터의 범위에 넣을 수 있다.
일반적으로 데이터베이스는 아니나 스키마를 가지고 있는 형태를 뜻하며, 데이터베이스의 데이터를 Dump하여 Json이나 XML 형태의 포맷으로 변경하면
이순간 반정형 데이터가 된다는 것인데 쉽게 납득이 되질 않는다.
DB vs JSON/XML
DB : 데이터를 저장하는 장소와 스키마가 분리되어 있어 테이블을 생성하고, 데이터를 저장
JSON/XML : 한 텍스트 파일에 Column과 Value를 모두 출력
728x90'Data Engineer' 카테고리의 다른 글
CBD 방법론 (1) 2024.01.11 Git add / commit / push 취소 (0) 2023.12.15 concurrent.futures (2) 2023.12.07 Copy() 메서드 (1) 2023.12.03 동기 작업과 비동기 작업 (1) 2023.12.03