분류 전체보기
-
-
<Kafka 발제 자료>Data Engineer 2023. 8. 20. 21:45
Kafka 등장배경 링크드인에서 근무하던 Jay Kreps, Jun Rao, Neha Narkhede가 개발 데이터 파이프라인의 확장, 기종 간의 호환성, 고성능 기반의 스트림 데이터 처리의 문제를 해결하기 위해 개발 2011년 Apache 오픈소스로 공개 LINE의 Kafka 도입 사례 카카오 전사 모니터링 시스템(KEMI)의 Kafka 도입 사례 Kafka의 장점 높은 처리량, 빠른 응답속도, 안정성 빠른 데이터 수집이 가능한 높은 처리량 HTTP 기반으로 전달되는 이벤트임에도 한 자릿수 밀리초의 응답시간으로 처리 카프카 도입 전보다 광범위한 데이터 흐름 만들기 가능 이벤트 처리 순서 보장 엔터티 간 유효성 검사나 동시 수정 같은 무수한 복잡성 제거 적어도 한 번 전송 방식(At least Once)..
-
-
-
Mac Java 11 설치Data Engineer 2023. 7. 27. 14:09
Spring 실습을 위해 java 11을 설치해야 하는데, 꽤 오래 걸리는 작업이었다... ㅠ 우선 mac 상위에서 리스트를 검색하고, Library/Java/JavaVirtualMachines 에 들어간다. % cd Library/Java/JavaVirtualMachines jdk-20.jdk 기본적으로 깔려있는 java 20이 보인다. 먼저, oracle 공식 사이트에 접속하여 java 11을 다운로드 한다. https://www.oracle.com/java/technologies/downloads/#java11-mac 위 링크에 접속하여 스크롤을 내리다보면 다음과 같은 화면이 나온다 m2 칩을 사용하기 때문에 ARM64 DMG 를 선택하여 다운로드 받는다. (m1의 경우 x64 DMG 선택. m2 ..
-
-
데이터 엔지니어링 수명 주기<견고한 데이터 엔지니어링> 2023. 7. 20. 15:41
데이터 엔지니어링 수명 주기는 원천 시스템에서 데이터를 가져와 저장하는 것에서 시작한다. 데이터를 변환한 뒤 분석가, 데이터 과학자, ML 엔지니어 등에게 데이터를 제공한다는 주요 목표를 향해 나아간다. 실제로 데이터 저장은 데이터가 처음부터 끝까지 흐르면서 수명 주기 전체에 걸쳐 발생한다. 데이터 생성 원천 시스템 : 데이터 엔지니어링 수명 주기에서 사용되는 데이터의 원본이다. IoT 장치와 애플리케이션 메시지 대기열 또는 트랜잭션 데이터베이스를 예로 들 수 있다. 데이터 엔지니어는 원천 시스템의 데이터를 소비하나, 일반적으로 원천 시스템 자체를 소유하거나 제어하지 않는다. 데이터 엔지니어는 원천 시스템의 작동 방식, 데이터 생성 방식, 데이터 빈도 및 속도, 생성되는 데이터의 다양성을 실무적으로 이해..