wonpick
devvon
wonpick
방문자🌱
오늘
어제
  • 분류 전체보기 (146)
    • 개발 (42)
      • Spark (7)
      • Hadoop (3)
      • ML&DL (4)
      • Paper Review (0)
      • ETC (24)
    • STUDY (77)
      • Data Engineering (54)
      • Cloud (4)
      • Algorithm (5)
      • SQL (10)
      • Toy Project (1)
    • Android (2)
    • Backend (14)
    • 인턴 (0)
    • 공모전 (0)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

인기 글

태그

  • 쿠버네티스
  • 최신 데이터 인프라 이해하기
  • SQL
  • Python
  • 최신 데이터 인프라 이해하기 #7
  • cka
  • kodekloud
  • 데이터엔지니어링
  • 인턴강연
  • 자연어처리

최근 댓글

최근 글

티스토리

Designed By.hELLO
wonpick

devvon

[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들
STUDY/Data Engineering

[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들

2022. 1. 15. 21:46

Ingestion and Transformation

connectors만 설명 뒤에는 다음 차시에

1. Connectors

- source에서 발생하는 데이터들을 연결해서 data warehouse, data lake로 보낸다.

 

ETL 도구 3가지 

fivetran

fivetran - spark 기반

ETL에서 ELT로 넘어가는 이유

- 저장공간은 비용이 낮고, transform 컴퓨팅은 비용이 높은 현상 발생으로,  로딩 먼저해놓고 여러 용도로 트랜스폼을 해볼 수있는 elt가 더 효율적이라는 판단..

 

Stichdata

소스들 가져와서 leading data plaforms and 분석도구 연결

가능하면 수많은 분석도구들을 지원함, 저장장소도 다양하게 제공. 파노플리가 중소기업용 데이터 웨어하우스로는 괜찮아서(비용 절감) 계속 등장함. 

 

Matillion

Matillion에서는 data loader가 있다. extract, Load 기능 무료로 제공

matillion data loader는 간단하게 다양한 데이터 소스에서 데이터를 수집해 우리가 사용하는 클라우드 기반의 데이터 웨어하우스인 빅쿼리, 스노우 플레이크 등등에 올려주는 작업만 데이터 제한 없이 무료로 제공한다!

(장점) 굉장히 많은 데이터 소스에서 데이터 웨어하우스로 로딩하는걸 무료로 테스트해볼 수 있다!

3가지 모두 차이점은 존재하지만 대동소이하다.... 소스 지원이 스티치가 제일 많ㅇ..

 

 

'STUDY > Data Engineering' 카테고리의 다른 글

[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis  (0) 2022.01.16
[정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#2 데이터 소스  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#1 기본 개념과 단어 설명  (0) 2022.01.15
    wonpick
    wonpick

    티스토리툴바