데이터엔지니어링
[정리] 최신 데이터 인프라 이해하기_#7 - Kafka Streams, kSQL, ksqlDB, Apache Flink, Spark Structured Streaming
Ingestion and Transformation Streaming Processing kafka는 real time, spark는 마이크로 배치 Kafka Streams kafka streams는 JVM client library이다. 스트림에 대해서 처리한다음에 다시 kafka에 저장한다. 카프카에 올라가는 event stream에 대해서 어떤 처리를 하는 것들인데, 카프카 스트림즈는 JVM client library를 활용해서 JAVA로 코딩을 할수있다. kafka cluster에서 streams API를 통해, 우리의 앱은 실제로 kafka cluster 밖에 있지만. 밖에서 kafka cluster에서 카프카에 이벤트가 올라오면 streams API 가져다가 우리 앱이 처리하고 그걸 다시 저장..
[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis
Ingestion and Transformation 데이터 엔지니어링에서 스트리밍이 중요한 이유? - 데이터 가용성 때문. 어떤 데이터를 언제 누가 접근할 수 있게 해주는가. 데이터 웨어하우스 - 데이터 웨어하우스는 오래전부터 있었는데, 클라우드 시절 이전이라 한정된 공간에 넣어야된다보니 분석을 위한 데이터만 뽑아서 사용하여 엄격한 스키마를 사용해야했다. - 데이터는 ETL, transform이 끝나고 로드하는 시점(적재)부터 접근이 가능한데 BI 도구를 통해서만 접근이 가능했다. 그래서 실시간은 불가능하고 느렸다. 하둡을 이용한 배치시스템 - 여러 스키마들을 지원하나 똑같이 배치를 통해서 하다보니(로드한 시점 이후) 실시간은 불가능했다 - BI도구 뿐만 아니라 python과 같은 도구를 통한 접근이 가..
[정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저
Ingestion and Transformation 2. Data Modeling - 소스에서 오지 않음. 데이터 웨어하우스와 데이터 레이크와 연결되어있음. - dbt, LookML 2가지 있음 - dbt: 데이터 분석가들을 위한 도구 , 트랜스포메이션용 SQL 개발 툴 (장점) 1인 개발자에게는 무료라서 편하게 테스트 가능 - LookML: 루커는 BI도구이다. 내가 원하는 데이터를 잘가져오지 못해서, 데이터를 트랜스폼 할 수 있는 도구가 있었으면 좋겠다해서 BI도구 쪽에서 만든 transformaiton 데이터 모델링용 도구 3. Workflow Manager - 데이터 소스에서 데이터를 가져와 data warehous로 옮기는데 이걸 워크 플로우 단위로 관리하는 것. - Airflow: 하둡잡을 스..
[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들
Ingestion and Transformation 1. Connectors - source에서 발생하는 데이터들을 연결해서 data warehouse, data lake로 보낸다. ETL 도구 3가지 fivetran ETL에서 ELT로 넘어가는 이유 - 저장공간은 비용이 낮고, transform 컴퓨팅은 비용이 높은 현상 발생으로, 로딩 먼저해놓고 여러 용도로 트랜스폼을 해볼 수있는 elt가 더 효율적이라는 판단.. Stichdata 가능하면 수많은 분석도구들을 지원함, 저장장소도 다양하게 제공. 파노플리가 중소기업용 데이터 웨어하우스로는 괜찮아서(비용 절감) 계속 등장함. Matillion matillion data loader는 간단하게 다양한 데이터 소스에서 데이터를 수집해 우리가 사용하는 클라우..