영상 목차 ( 긱뉴스 - 최신 데이터 인프라 이해하기 )
#1 기본 개념과 단어 설명
#2 데이터 소스(OLTP, CDC, ERP, CRM, Event Collector, Segment, Snowplow, Rudderstack)
#3 - ETL/ELT 도구들(Fivetran, Stitch, Matillion, Panoply)
#4 - 데이터 모델링과 워크플로우 매니저(dbt,Airflow,Dagster,Prefect)
#5 - Spark, Python, Hive
#6 - Kafka, Pulsar, Kinesis
#7 - Kafka Streams, kSQL, ksqlDB, Apache Flink, Spark Structured Streaming
데이터 인프라 구축의 목적
1. 분석 시스템
- 데이터 기반의 의사결정을 할 수 있는 분석시스템 만들기
2. 서비스 향상
- 데이터의 도움을 받아 서비스/제품을 향상 시키기
데이터 인프라가 하는 전체적인 그림
sources: 회사내 데이터가 만들어지는 곳
ingestion and transformation: 저장소
storage: 데이터 웨어하우스, 데이터 레이크
historical: 적재된 데이터를 가지고 과거의 일을 분석
predictive:: 적재된 데이터를 가지고 미래를 예측
output: 결과를 보여준다.
데이터 인프라 기초
회사 서비스가 운영되는 각종 프로덕션 시스템
- (기존 문제점) 분석을 하고 싶으면 각각의 분석도구로 분석을 진행해야된다.-> 데이터 웨어하우스의 필요성
1. (기존) 프로덕션 시스템 - 작은 테이블로 쪼갠다. 복잡함
2. 데이터 웨어하우스 - 더 작고 간단한 테이블로 만들어진 구조를 띈다. (가운데 팩트 테이블이 있고 옆에 디멘져널한 테이블이 위치)
-> 데이터를 분석하기 위해 만든 데이터
ETL(추출 변환 적재) / ELT(추출 적재 변환)
데이터 분석가: 데이터를 해석해서 비즈니스 의사결정을 돕는 정보로 만드는 사람 (python ,SQL,쉘스크립트)
- 통계학, BI툴 시각화, 스프레드시트 & DB사용
데이터 엔지니어: 빅데이터를 처리할 수 있는 인프라 & 아키텍쳐를 만드는 사람 (python ,SQL,R)
- 프로그래밍, 수학, 빅데이터 다양한 데이터베이스 지식, ETL 및 BI 도구들에 대한 지식
데이터 사이언티스트: 수학+과학+도메인 전문가, 큰데이터도 잘다루고 복잡한 문제를 해결하는 사람 (python ,SQL,R)
- 수학, 스토리텔링, 데이터 모델링, 분산 컴퓨팅, 도메인 지식, 커뮤니케이션
'STUDY > Data Engineering' 카테고리의 다른 글
[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis (0) | 2022.01.16 |
---|---|
[정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저 (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들 (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#2 데이터 소스 (0) | 2022.01.15 |