Ingestion and Transformation
1. Connectors
- source에서 발생하는 데이터들을 연결해서 data warehouse, data lake로 보낸다.
ETL 도구 3가지
fivetran
ETL에서 ELT로 넘어가는 이유
- 저장공간은 비용이 낮고, transform 컴퓨팅은 비용이 높은 현상 발생으로, 로딩 먼저해놓고 여러 용도로 트랜스폼을 해볼 수있는 elt가 더 효율적이라는 판단..
Stichdata
가능하면 수많은 분석도구들을 지원함, 저장장소도 다양하게 제공. 파노플리가 중소기업용 데이터 웨어하우스로는 괜찮아서(비용 절감) 계속 등장함.
Matillion
matillion data loader는 간단하게 다양한 데이터 소스에서 데이터를 수집해 우리가 사용하는 클라우드 기반의 데이터 웨어하우스인 빅쿼리, 스노우 플레이크 등등에 올려주는 작업만 데이터 제한 없이 무료로 제공한다!
(장점) 굉장히 많은 데이터 소스에서 데이터 웨어하우스로 로딩하는걸 무료로 테스트해볼 수 있다!
'STUDY > Data Engineering' 카테고리의 다른 글
[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis (0) | 2022.01.16 |
---|---|
[정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저 (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#2 데이터 소스 (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#1 기본 개념과 단어 설명 (0) | 2022.01.15 |