최신 데이터 인프라 이해하기
[정리] 최신 데이터 인프라 이해하기_#2 데이터 소스
SOURCES - 소스들은 회사에서 발생하는 데이터를 저장하는 공간이라고도 볼 수 있지만, 저장 뿐만 아니라 발생하는 원본 소스들을 다른 곳으로 보낼 수 있는, 데이터가 생성되는 곳이다. 1.OLTP DB via CDC - OLTP: 은행 계좌에서 이체할때 (A->B, 2가지 오퍼레이션이 일어나야지 성립). 정규화된 데이터 - OLAP: 데이터 웨어하우스에서 처리하는거랑 비슷, 복잡한 분석쿼리를 달리는 것. 정규화되지 않은 데이터(복잡한 분석쿼리 날림) - CDC (change data capture): OLTP에서는 업데이트되는 일이 일어남.이러한 업데이트된 내용들만 다른 외부 DB로 복사하는 기술 OLTP DB는 트랜잭션을 기록하는데만 집중해있고 그걸 다른 곳에 쓰지 못함. OLTP 데이터를 가져다가..
[정리] 최신 데이터 인프라 이해하기_#1 기본 개념과 단어 설명
영상 목차 ( 긱뉴스 - 최신 데이터 인프라 이해하기 ) #1 기본 개념과 단어 설명 #2 데이터 소스(OLTP, CDC, ERP, CRM, Event Collector, Segment, Snowplow, Rudderstack) #3 - ETL/ELT 도구들(Fivetran, Stitch, Matillion, Panoply) #4 - 데이터 모델링과 워크플로우 매니저(dbt,Airflow,Dagster,Prefect) #5 - Spark, Python, Hive #6 - Kafka, Pulsar, Kinesis #7 - Kafka Streams, kSQL, ksqlDB, Apache Flink, Spark Structured Streaming 데이터 인프라의 변화(영상 내용 참고자료) 데이터 인프라 구축..