최신 데이터 인프라 이해하기 #6

[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis
Ingestion and Transformation 데이터 엔지니어링에서 스트리밍이 중요한 이유? - 데이터 가용성 때문. 어떤 데이터를 언제 누가 접근할 수 있게 해주는가. 데이터 웨어하우스 - 데이터 웨어하우스는 오래전부터 있었는데, 클라우드 시절 이전이라 한정된 공간에 넣어야된다보니 분석을 위한 데이터만 뽑아서 사용하여 엄격한 스키마를 사용해야했다. - 데이터는 ETL, transform이 끝나고 로드하는 시점(적재)부터 접근이 가능한데 BI 도구를 통해서만 접근이 가능했다. 그래서 실시간은 불가능하고 느렸다. 하둡을 이용한 배치시스템 - 여러 스키마들을 지원하나 똑같이 배치를 통해서 하다보니(로드한 시점 이후) 실시간은 불가능했다 - BI도구 뿐만 아니라 python과 같은 도구를 통한 접근이 가..