<견고한 데이터 엔지니어링>
-
DataBase에 대해<견고한 데이터 엔지니어링> 2023. 10. 9. 19:15
Database 데이터베이스 관리 시스템(DBMS) 조회 쿼리 옵티마이저 확장과 분산 모델링 패턴 CRUD 일관성 관계형 vs 비관계형 관계형 가장 일반적인 애플리케이션 백엔드 중 하나 데이터는 관계 테이블에 저장되며, 각 관계에는 여러 필드(열)가 포함 테이블 내의 각 관계는 동일한 스키마(string, integer, float 등의 정적 유형이 할당된 일련의 열)를 가진다 행은 일반적으로 연속된 바이트 시퀀스로 디스크로 저장 테이블은 일반적으로 테이블의 각 행에 대한 고유 필드인 기본 키에 의해 인덱싱 다른 테이블의 기본 키 값과 연결된 값이 있는 필드인 다양한 외래 키를 가질 수도 있다. 일반적으로 ACID 준수 정규화된 스키마, ACID 컴플라이언스 및 높은 트랜잭션 비율 지원을 결합한 관계형 ..
-
원천 시스템에서의 데이터 생성<견고한 데이터 엔지니어링> 2023. 10. 9. 19:05
Data 흐름 원천 시스템에서의 데이터 생성 데이터 수집은 IoT 장치, 신용카드 단말기, 망원경 센서, 주식 거래 등에서 데이터를 수집한다. File -> 바이트의 시퀀스로서 일반적으로 디스크에 저장 애플리케이션은 종종 파일에 데이터를 쓴다. (로컬 매개변수, 이벤트, 로그, 이미지 및 오디오 저장) 정형 : xlsx, csv 반정형 : json, xml, csv 비정형 : txt, csv API. : 시스템 간에 데이터를 교환하는 표준 방식 다양한 서비스와 프레임워크, 그리고 API 데이터 수집 자동화 서비스 애플리케이션 데이터베이스 OLTP 애플리케이션의 상태를 저장 은행 계좌의 잔액을 저장하는 데이터베이스 개별 데이터 레코드를 높은 속도로 읽고 쓰는 온라인 트랜잭션 처리 트랜잭션 데이터베이스 짧은..
-
데이터 엔지니어링 수명 주기<견고한 데이터 엔지니어링> 2023. 7. 20. 15:41
데이터 엔지니어링 수명 주기는 원천 시스템에서 데이터를 가져와 저장하는 것에서 시작한다. 데이터를 변환한 뒤 분석가, 데이터 과학자, ML 엔지니어 등에게 데이터를 제공한다는 주요 목표를 향해 나아간다. 실제로 데이터 저장은 데이터가 처음부터 끝까지 흐르면서 수명 주기 전체에 걸쳐 발생한다. 데이터 생성 원천 시스템 : 데이터 엔지니어링 수명 주기에서 사용되는 데이터의 원본이다. IoT 장치와 애플리케이션 메시지 대기열 또는 트랜잭션 데이터베이스를 예로 들 수 있다. 데이터 엔지니어는 원천 시스템의 데이터를 소비하나, 일반적으로 원천 시스템 자체를 소유하거나 제어하지 않는다. 데이터 엔지니어는 원천 시스템의 작동 방식, 데이터 생성 방식, 데이터 빈도 및 속도, 생성되는 데이터의 다양성을 실무적으로 이해..
-
[직무탐색] Upstream, Downstream 이해 관계자<견고한 데이터 엔지니어링> 2023. 7. 20. 13:56
( 서적을 참고했습니다.) * External Engineer : 소셜 미디어 앱, IoT 장치, 전자 상거래 플랫폼과 같은 외부 애플리케이션의 사용자와 연계하며, 이러한 애플리케이션에서 발생하는 트랜잭션 및 이벤트 데이터를 수집/저장/처리하는 시스템을 설계, 구축, 관리한다. 이러한 데이터 엔지니어가 구축한 시스템에는 애플리케이션에서 데이터 파이프라인으로, 그리고 다시 애플리케이션으로 향하는 피드백 루프가 있다. [External Engineer가 가져야할 문제의식] 1. 외부 대면 쿼리 엔진은 내부 대면 시스템보다 훨씬 더 큰 동시성 부하를 처리하는 경우가 많아. 사용자가 실행할 수 있는 쿼리에 엄격한 제한을 두어 단일 사용자가 인프라에 미치는 영향을 제한해야 한다 2. 보안은 외부 쿼리에서 훨씬 더..