STUDY
[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis
Ingestion and Transformation 데이터 엔지니어링에서 스트리밍이 중요한 이유? - 데이터 가용성 때문. 어떤 데이터를 언제 누가 접근할 수 있게 해주는가. 데이터 웨어하우스 - 데이터 웨어하우스는 오래전부터 있었는데, 클라우드 시절 이전이라 한정된 공간에 넣어야된다보니 분석을 위한 데이터만 뽑아서 사용하여 엄격한 스키마를 사용해야했다. - 데이터는 ETL, transform이 끝나고 로드하는 시점(적재)부터 접근이 가능한데 BI 도구를 통해서만 접근이 가능했다. 그래서 실시간은 불가능하고 느렸다. 하둡을 이용한 배치시스템 - 여러 스키마들을 지원하나 똑같이 배치를 통해서 하다보니(로드한 시점 이후) 실시간은 불가능했다 - BI도구 뿐만 아니라 python과 같은 도구를 통한 접근이 가..
[정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive
Ingestion and Transformation - spark 플랫폼은 데이터를 가져와서 처리하는데, spark sql처리를 하든 streaming를 하든 머신러닝을 하든 대규모로 처리하게 해주는게 spark이다. (python, scala 등 다양한 언어 지원) - 배치쿼리 엔진 hive랑 연결해서 다양한 데이터 소스 가져다가 처리 가능함. 4. Spark Platform - 워크 플로우 매니저에서는 task를 실행하는데, 그 task가 빅데이터를 다루기 위해선 수백대 수천대 기기에서 분할해서 분석하는 작업이 이루어져야한다. 에어플로우는 분할해서 분석처리하는 것은 아니고, task를 수행하는 엔진이기 때문에 spark를 통해 빅데이터 분석작업을 시킨다. (spark가 생긴 후 에어플로우가 생겼다.)..
[정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저
Ingestion and Transformation 2. Data Modeling - 소스에서 오지 않음. 데이터 웨어하우스와 데이터 레이크와 연결되어있음. - dbt, LookML 2가지 있음 - dbt: 데이터 분석가들을 위한 도구 , 트랜스포메이션용 SQL 개발 툴 (장점) 1인 개발자에게는 무료라서 편하게 테스트 가능 - LookML: 루커는 BI도구이다. 내가 원하는 데이터를 잘가져오지 못해서, 데이터를 트랜스폼 할 수 있는 도구가 있었으면 좋겠다해서 BI도구 쪽에서 만든 transformaiton 데이터 모델링용 도구 3. Workflow Manager - 데이터 소스에서 데이터를 가져와 data warehous로 옮기는데 이걸 워크 플로우 단위로 관리하는 것. - Airflow: 하둡잡을 스..
[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들
Ingestion and Transformation 1. Connectors - source에서 발생하는 데이터들을 연결해서 data warehouse, data lake로 보낸다. ETL 도구 3가지 fivetran ETL에서 ELT로 넘어가는 이유 - 저장공간은 비용이 낮고, transform 컴퓨팅은 비용이 높은 현상 발생으로, 로딩 먼저해놓고 여러 용도로 트랜스폼을 해볼 수있는 elt가 더 효율적이라는 판단.. Stichdata 가능하면 수많은 분석도구들을 지원함, 저장장소도 다양하게 제공. 파노플리가 중소기업용 데이터 웨어하우스로는 괜찮아서(비용 절감) 계속 등장함. Matillion matillion data loader는 간단하게 다양한 데이터 소스에서 데이터를 수집해 우리가 사용하는 클라우..