STUDY/Data Engineering

[정리] 최신 데이터 인프라 이해하기_#1 기본 개념과 단어 설명

wonpick 2022. 1. 15. 20:37

영상 목차 ( 긱뉴스 - 최신 데이터 인프라 이해하기 )

#1 기본 개념과 단어 설명

#2 데이터 소스(OLTP, CDC, ERP, CRM, Event Collector, Segment, Snowplow, Rudderstack)

#3 - ETL/ELT 도구들(Fivetran, Stitch, Matillion, Panoply)

#4 - 데이터 모델링과 워크플로우 매니저(dbt,Airflow,Dagster,Prefect)

#5 - Spark, Python, Hive

#6 - Kafka, Pulsar, Kinesis

#7 - Kafka Streams, kSQL, ksqlDB, Apache Flink, Spark Structured Streaming

 

데이터 인프라의 변화(영상 내용 참고자료)

 

데이터 인프라 구축의 목적

1. 분석 시스템 

- 데이터 기반의 의사결정을 할 수 있는 분석시스템 만들기

2. 서비스 향상

- 데이터의 도움을 받아 서비스/제품을 향상 시키기

 

 

데이터 인프라가 하는 전체적인 그림

sources: 회사내 데이터가 만들어지는 곳

ingestion and transformation: 저장소

storage: 데이터 웨어하우스, 데이터 레이크

historical: 적재된 데이터를 가지고 과거의 일을 분석

predictive:: 적재된 데이터를 가지고 미래를 예측

output: 결과를 보여준다.

이 도표를 이해하는 것이 최종 목표

 

 

 

데이터 인프라 기초 

 회사 서비스가 운영되는 각종 프로덕션 시스템

- (기존 문제점) 분석을 하고 싶으면 각각의 분석도구로 분석을 진행해야된다.-> 데이터 웨어하우스의 필요성

 

1. (기존) 프로덕션 시스템 - 작은 테이블로 쪼갠다. 복잡함

2. 데이터 웨어하우스 - 더 작고 간단한 테이블로 만들어진 구조를 띈다. (가운데 팩트 테이블이 있고 옆에 디멘져널한 테이블이 위치)

-> 데이터를 분석하기 위해 만든 데이터 

 

회사 서비스가 운영되는 각종 프로덕션 시스템

 

 

 

 

ETL(추출 변환 적재) / ELT(추출 적재 변환)

(문제점) 자동화가 안돼서 변환 하는 방법이 회사마다 다르다. 때문에 ETL 플랫폼들이 ELT로 변화하고 있다.  

 

 

데이터 분석가: 데이터를 해석해서 비즈니스 의사결정을 돕는 정보로 만드는 사람 (python ,SQL,쉘스크립트)

- 통계학, BI툴 시각화, 스프레드시트 & DB사용

데이터 엔지니어: 빅데이터를 처리할 수 있는 인프라 & 아키텍쳐를 만드는 사람   (python ,SQL,R)

- 프로그래밍, 수학, 빅데이터 다양한 데이터베이스 지식, ETL 및 BI 도구들에 대한 지식

데이터 사이언티스트: 수학+과학+도메인 전문가, 큰데이터도 잘다루고 복잡한 문제를 해결하는 사람  (python ,SQL,R)

- 수학, 스토리텔링, 데이터 모델링, 분산 컴퓨팅, 도메인 지식, 커뮤니케이션