Data Engineer
-
Spark Structured Streaming_1Data Engineer 2023. 10. 29. 16:53
공식 문서에 따르면 Spark Streaming은 더 이상 버전 업데이트가 되지 않는 구식(?)이 되어버려서, Spark Structured Streaming 툴을 사용해야 한다. 오늘은 Spark Structured Streaming에 대해 알아보기로 한다. *공식문서 : https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html Structured Streaming Programming Guide - Spark 3.5.0 Documentation Structured Streaming Programming Guide Overview Structured Streaming is a scalable and fault-tol..
-
데이터 엔지니어링 수명 주기 전체에 걸친 기술 선택Data Engineer 2023. 9. 17. 23:48
데이터 기술 : 오픈 소스, 관리형 오픈 소스, 독점 소프트웨어, 독점 서비스 등 거의 모든 방식으로 사용할 수 있는 Turn-Key 제품으로 제공 "수명 주기 전체에 걸쳐 데이터를 운반하고, 최종 사용자의 요구에 따라 이를 제공하는 견고하고 신뢰성 높은 시스템 설계" - 아키텍처 : 비즈니스의 전략적 목표를 충족하는 데이터 시스템의 고수준 설계, 로드맵 및 청사진 데이터 엔지니어링 수명 주기 전반에 걸쳐 데이터 기술 선택 고려사항 팀의 규모와 능력 단순한 기술부터 복잡한 기술에 이르기까지 팀의 규모에 따라 솔루션에 할애할 수 있는 역량의 규모가 대략적으로 결정 Cargo-cult engineering : 소규모 데이터 팀이 대기업의 최첨단 기술에 관한 블로그 포스팅을 참고하여 모방하는 사례 소규모 팀이..
-
DMBOKData Engineer 2023. 9. 3. 17:44
비즈니스 메타데이터 : 비즈니스와 데이터 정의, 데이터 규칙과 로직, 데이터 사용 방법과 장소, 데이터 소유자 등 비즈니스에서 데이터가 사용되는 방식과 관련이 있다. 비즈니스 메타데이터는 데이터 엔지니어에게 데이터를 적절하게 사용하는 올바른 콘텍스트와 정의를 제공한다. 예를 들어, 데이터 엔지니어는 올바른 데이터를 사용해 비즈니스 메타데이터(데이터 사전 / 데이터 카탈로그)를 참조해서 어떻게 고객을 정의했는지 찾아볼 수 있다. * Data Catalog : 'highly scalable data discovery and metadata management service' 기술 메타데이터 데이터 엔지니어링 수명 주기 전반에 걸쳐 시스템이 생성하고 사용하는 데이터를 의미한다. 여기에는 데이터 모델과 스키마,..
-
Airflow 사용해보기Data Engineer 2023. 8. 21. 01:57
Docker와 Docker-compose(v2 이상) 설치를 진행 후, 진행해보았다. 우선 docker 환경에서 에어플로우를 실행하기 위해서는 docker-compose.yaml 파일이 필요하다. 필요한 기본적인 파일은 에어플로우 공식 사이트(https://airflow.apache.org/docs/apache-airflow/stable/howto/docker-compose/index.html)에서 확인이 가능하며, 터미널에서 다음과 같은 명령어를 실행해주면 된다. curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.7.0/docker-compose.yaml' # Licensed to the Apache Software Foundation (ASF)..
-
<Kafka 발제 자료>Data Engineer 2023. 8. 20. 21:45
Kafka 등장배경 링크드인에서 근무하던 Jay Kreps, Jun Rao, Neha Narkhede가 개발 데이터 파이프라인의 확장, 기종 간의 호환성, 고성능 기반의 스트림 데이터 처리의 문제를 해결하기 위해 개발 2011년 Apache 오픈소스로 공개 LINE의 Kafka 도입 사례 카카오 전사 모니터링 시스템(KEMI)의 Kafka 도입 사례 Kafka의 장점 높은 처리량, 빠른 응답속도, 안정성 빠른 데이터 수집이 가능한 높은 처리량 HTTP 기반으로 전달되는 이벤트임에도 한 자릿수 밀리초의 응답시간으로 처리 카프카 도입 전보다 광범위한 데이터 흐름 만들기 가능 이벤트 처리 순서 보장 엔터티 간 유효성 검사나 동시 수정 같은 무수한 복잡성 제거 적어도 한 번 전송 방식(At least Once)..
-