STUDY/Data Engineering

[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들

wonpick 2022. 1. 15. 21:46

Ingestion and Transformation

connectors만 설명 뒤에는 다음 차시에

1. Connectors

- source에서 발생하는 데이터들을 연결해서 data warehouse, data lake로 보낸다.

 

ETL 도구 3가지 

fivetran

fivetran - spark 기반

ETL에서 ELT로 넘어가는 이유

- 저장공간은 비용이 낮고, transform 컴퓨팅은 비용이 높은 현상 발생으로,  로딩 먼저해놓고 여러 용도로 트랜스폼을 해볼 수있는 elt가 더 효율적이라는 판단..

 

Stichdata

소스들 가져와서 leading data plaforms and 분석도구 연결

가능하면 수많은 분석도구들을 지원함, 저장장소도 다양하게 제공. 파노플리가 중소기업용 데이터 웨어하우스로는 괜찮아서(비용 절감) 계속 등장함. 

 

Matillion

Matillion에서는 data loader가 있다. extract, Load 기능 무료로 제공

matillion data loader는 간단하게 다양한 데이터 소스에서 데이터를 수집해 우리가 사용하는 클라우드 기반의 데이터 웨어하우스인 빅쿼리, 스노우 플레이크 등등에 올려주는 작업만 데이터 제한 없이 무료로 제공한다!

(장점) 굉장히 많은 데이터 소스에서 데이터 웨어하우스로 로딩하는걸 무료로 테스트해볼 수 있다!

3가지 모두 차이점은 존재하지만 대동소이하다.... 소스 지원이 스티치가 제일 많ㅇ..