-
DMBOKData Engineer 2023. 9. 3. 17:44728x90
비즈니스 메타데이터
: 비즈니스와 데이터 정의, 데이터 규칙과 로직, 데이터 사용 방법과 장소, 데이터 소유자 등 비즈니스에서 데이터가 사용되는 방식과 관련이 있다. 비즈니스 메타데이터는 데이터 엔지니어에게 데이터를 적절하게 사용하는 올바른 콘텍스트와 정의를 제공한다. 예를 들어, 데이터 엔지니어는 올바른 데이터를 사용해 비즈니스 메타데이터(데이터 사전 / 데이터 카탈로그)를 참조해서 어떻게 고객을 정의했는지 찾아볼 수 있다.
* Data Catalog : 'highly scalable data discovery and metadata management service'
기술 메타데이터
데이터 엔지니어링 수명 주기 전반에 걸쳐 시스템이 생성하고 사용하는 데이터를 의미한다. 여기에는 데이터 모델과 스키마, 데이터 계보, 필드 매핑 및 파이프라인 워크플로가 포함되며, 데이터 엔지니어는 이를 사용해 데이터 엔지니어링 수명 주기 전반에 걸쳐 다양한 시스템을 생성하고, 연결하고, 모니터링한다.
해당 요소
- Pipeline 메타데이터 : 워크플로 일정, 시스템과 데이터 종속성, 구성, 연결 세부 정보 등을 제공
- 데이터 계보(lineage) 메타데이터 : 데이터 원본과 변경 사항, 데이터 종속성을 시간에 따라 추적한다. 데이터가 다양한 시스템과 워크플로를 거치는 동안 데이터의 진화에 대한 감사 추적을 제공한다.
- 스키마 메타데이터 : 데이터베이스, 데이터 웨어하우스, 데이터 레이크 / 파일 시스템에 저장된 데이터 구조를 설명한다. 객체 저장소의 경우 스키마 메타데이터를 관리하지 않는 대신 메타스토어에서 관리해야 하나, 클라우드 데이터 웨어하우스는 스키마 메타데이터를 내부적으로 관리한다.
운영 메타데이터
다양한 시스템의 운영 결과를 설명하며 프로세스, 작업 ID, 애플리케이션 런타임 로그, 프로세스에서 사용되는 데이터 및 오류 로그에 대한 통계를 포함한다. 데이터 엔지니어는 운영 메타데이터를 사용해서 프로세스의 성공 또는 실패 여부와 그 프로세스에 관련된 데이터를 판단한다.
Airflow 화면 생각하면 될듯참조 메타데이터
다른 데이터를 분류하는 데 필요한 데이터로, 조회 데이터라고도 한다. 참조 데이터의 표준 사례로 내부 코드, 지리적 코드, 측정 단위 및 내부 달력 표준 등이 있다. 대부분의 참조 데이터는 내부적으로 완벽히 관리되나 지리 코드와 같은 항목은 표준 외부 참조에서 가져올 수 있다.참조 데이터는 기본적으로 다른 데이터를 해석하기 위한 표준이므로 데이터가 변경되면 시간이 지남에 따라 서서히 변경된다.
728x90'Data Engineer' 카테고리의 다른 글
Spark Structured Streaming_1 (1) 2023.10.29 데이터 엔지니어링 수명 주기 전체에 걸친 기술 선택 (0) 2023.09.17 Airflow 사용해보기 (0) 2023.08.21 <Kafka 발제 자료> (0) 2023.08.20 Kafka 실습 (0) 2023.08.15