STUDY/Data Engineering

    [정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive

    Ingestion and Transformation - spark 플랫폼은 데이터를 가져와서 처리하는데, spark sql처리를 하든 streaming를 하든 머신러닝을 하든 대규모로 처리하게 해주는게 spark이다. (python, scala 등 다양한 언어 지원) - 배치쿼리 엔진 hive랑 연결해서 다양한 데이터 소스 가져다가 처리 가능함. 4. Spark Platform - 워크 플로우 매니저에서는 task를 실행하는데, 그 task가 빅데이터를 다루기 위해선 수백대 수천대 기기에서 분할해서 분석하는 작업이 이루어져야한다. 에어플로우는 분할해서 분석처리하는 것은 아니고, task를 수행하는 엔진이기 때문에 spark를 통해 빅데이터 분석작업을 시킨다. (spark가 생긴 후 에어플로우가 생겼다.)..

    [정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저

    Ingestion and Transformation 2. Data Modeling - 소스에서 오지 않음. 데이터 웨어하우스와 데이터 레이크와 연결되어있음. - dbt, LookML 2가지 있음 - dbt: 데이터 분석가들을 위한 도구 , 트랜스포메이션용 SQL 개발 툴 (장점) 1인 개발자에게는 무료라서 편하게 테스트 가능 - LookML: 루커는 BI도구이다. 내가 원하는 데이터를 잘가져오지 못해서, 데이터를 트랜스폼 할 수 있는 도구가 있었으면 좋겠다해서 BI도구 쪽에서 만든 transformaiton 데이터 모델링용 도구 3. Workflow Manager - 데이터 소스에서 데이터를 가져와 data warehous로 옮기는데 이걸 워크 플로우 단위로 관리하는 것. - Airflow: 하둡잡을 스..

    [정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들

    Ingestion and Transformation 1. Connectors - source에서 발생하는 데이터들을 연결해서 data warehouse, data lake로 보낸다. ETL 도구 3가지 fivetran ETL에서 ELT로 넘어가는 이유 - 저장공간은 비용이 낮고, transform 컴퓨팅은 비용이 높은 현상 발생으로, 로딩 먼저해놓고 여러 용도로 트랜스폼을 해볼 수있는 elt가 더 효율적이라는 판단.. Stichdata 가능하면 수많은 분석도구들을 지원함, 저장장소도 다양하게 제공. 파노플리가 중소기업용 데이터 웨어하우스로는 괜찮아서(비용 절감) 계속 등장함. Matillion matillion data loader는 간단하게 다양한 데이터 소스에서 데이터를 수집해 우리가 사용하는 클라우..

    [정리] 최신 데이터 인프라 이해하기_#2 데이터 소스

    SOURCES - 소스들은 회사에서 발생하는 데이터를 저장하는 공간이라고도 볼 수 있지만, 저장 뿐만 아니라 발생하는 원본 소스들을 다른 곳으로 보낼 수 있는, 데이터가 생성되는 곳이다. 1.OLTP DB via CDC - OLTP: 은행 계좌에서 이체할때 (A->B, 2가지 오퍼레이션이 일어나야지 성립). 정규화된 데이터 - OLAP: 데이터 웨어하우스에서 처리하는거랑 비슷, 복잡한 분석쿼리를 달리는 것. 정규화되지 않은 데이터(복잡한 분석쿼리 날림) - CDC (change data capture): OLTP에서는 업데이트되는 일이 일어남.이러한 업데이트된 내용들만 다른 외부 DB로 복사하는 기술 OLTP DB는 트랜잭션을 기록하는데만 집중해있고 그걸 다른 곳에 쓰지 못함. OLTP 데이터를 가져다가..