STUDY/Data Engineering

    2. CKA udemy 강의 정리 - Section 2 [k8s 컴포넌트]

    쿠버네티스 클러스터의 전체 구조 쿠버네티스 클러스터는 크게 두 종류의 서버로 구성되며, 모든 통신은 kube-apiserver 중심으로 이루어진다. 특히, etcd에는 kube-apiserver만 접근이 가능하다. Master Node : 클러스터 관리하는 곳 보통 고가용성을 만족하고자 서버를 3대 정도 구성하여 운영함 (클러스터를 안정적으로 운영하려면 마스터 서버 5대로 구성할수도 있음.) Worker Node(초기 minion이라 지칭) : 실제 컨테이너를 실행시키는 곳. 실제 사용하는 컨테이너 대부분은 노드에서 실행됨. 쿠버네티스 컴포넌트 클러스터는 단일 컴퓨터가 아니라 여러대의 컴퓨터를 하나의 묶음으로 다루는 것을 의미하므로 여러가지 컴포넌트들을 가지고 있다. 마스터 컴포넌트 (Master Com..

    1. CKA udemy 강의 정리 - Section 2 [k8s란?]

    쿠버네티스(Kubernetes)란? 쿠버네티스(Kubernetes)는 컨테이너화 된 애플리케이션의 대규모 배포, 스케일링 및 관리를 간편하게 만들어주는 오픈 소스 기반 컨테이너 오케스트레이션(Container Orchestration) 도구다. 정의: 쿠버네티스 클러스터는 애플리케이션 컨테이너를 실행하기 위한 일련의 노드 머신 목적: 애플리케이션을 자동화된 방식의 컨테이너 형태로 쉽게 호스팅하는 것. * 컨테이너란? 하나 이상의 목적을 위해 독립적으로 작동하는 프로세스 오케스트레이션(Orchestration)이란? 오케스트레이션은 서비스 전체에 자동화를 도입하여, 복잡한 단계를 관리하고 요소들의 유기적인 관계를 미리 정의해 서비스 간의 자동화된 작업을 통합하고 일정을 수립하는 것을 의미한다. 이러한 오케..

    [정리] 최신 데이터 인프라 이해하기_#7 - Kafka Streams, kSQL, ksqlDB, Apache Flink, Spark Structured Streaming

    Ingestion and Transformation Streaming Processing kafka는 real time, spark는 마이크로 배치 Kafka Streams kafka streams는 JVM client library이다. 스트림에 대해서 처리한다음에 다시 kafka에 저장한다. 카프카에 올라가는 event stream에 대해서 어떤 처리를 하는 것들인데, 카프카 스트림즈는 JVM client library를 활용해서 JAVA로 코딩을 할수있다. kafka cluster에서 streams API를 통해, 우리의 앱은 실제로 kafka cluster 밖에 있지만. 밖에서 kafka cluster에서 카프카에 이벤트가 올라오면 streams API 가져다가 우리 앱이 처리하고 그걸 다시 저장..

    [정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis

    Ingestion and Transformation 데이터 엔지니어링에서 스트리밍이 중요한 이유? - 데이터 가용성 때문. 어떤 데이터를 언제 누가 접근할 수 있게 해주는가. 데이터 웨어하우스 - 데이터 웨어하우스는 오래전부터 있었는데, 클라우드 시절 이전이라 한정된 공간에 넣어야된다보니 분석을 위한 데이터만 뽑아서 사용하여 엄격한 스키마를 사용해야했다. - 데이터는 ETL, transform이 끝나고 로드하는 시점(적재)부터 접근이 가능한데 BI 도구를 통해서만 접근이 가능했다. 그래서 실시간은 불가능하고 느렸다. 하둡을 이용한 배치시스템 - 여러 스키마들을 지원하나 똑같이 배치를 통해서 하다보니(로드한 시점 이후) 실시간은 불가능했다 - BI도구 뿐만 아니라 python과 같은 도구를 통한 접근이 가..