wonpick
devvon
wonpick
방문자🌱
오늘
어제
  • 분류 전체보기 (146)
    • 개발 (42)
      • Spark (7)
      • Hadoop (3)
      • ML&DL (4)
      • Paper Review (0)
      • ETC (24)
    • STUDY (77)
      • Data Engineering (54)
      • Cloud (4)
      • Algorithm (5)
      • SQL (10)
      • Toy Project (1)
    • Android (2)
    • Backend (14)
    • 인턴 (0)
    • 공모전 (0)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

인기 글

태그

  • 쿠버네티스
  • kodekloud
  • 데이터엔지니어링
  • 최신 데이터 인프라 이해하기
  • SQL
  • 최신 데이터 인프라 이해하기 #7
  • 인턴강연
  • 자연어처리
  • cka
  • Python

최근 댓글

최근 글

티스토리

Designed By.hELLO
wonpick

devvon

[정리] 최신 데이터 인프라 이해하기_#1 기본 개념과 단어 설명
STUDY/Data Engineering

[정리] 최신 데이터 인프라 이해하기_#1 기본 개념과 단어 설명

2022. 1. 15. 20:37

영상 목차 ( 긱뉴스 - 최신 데이터 인프라 이해하기 )

#1 기본 개념과 단어 설명

#2 데이터 소스(OLTP, CDC, ERP, CRM, Event Collector, Segment, Snowplow, Rudderstack)

#3 - ETL/ELT 도구들(Fivetran, Stitch, Matillion, Panoply)

#4 - 데이터 모델링과 워크플로우 매니저(dbt,Airflow,Dagster,Prefect)

#5 - Spark, Python, Hive

#6 - Kafka, Pulsar, Kinesis

#7 - Kafka Streams, kSQL, ksqlDB, Apache Flink, Spark Structured Streaming

 

데이터 인프라의 변화(영상 내용 참고자료)

 

데이터 인프라 구축의 목적

1. 분석 시스템 

- 데이터 기반의 의사결정을 할 수 있는 분석시스템 만들기

2. 서비스 향상

- 데이터의 도움을 받아 서비스/제품을 향상 시키기

 

 

데이터 인프라가 하는 전체적인 그림

sources: 회사내 데이터가 만들어지는 곳

ingestion and transformation: 저장소

storage: 데이터 웨어하우스, 데이터 레이크

historical: 적재된 데이터를 가지고 과거의 일을 분석

predictive:: 적재된 데이터를 가지고 미래를 예측

output: 결과를 보여준다.

이 도표를 이해하는 것이 최종 목표

 

 

 

데이터 인프라 기초 

 회사 서비스가 운영되는 각종 프로덕션 시스템

- (기존 문제점) 분석을 하고 싶으면 각각의 분석도구로 분석을 진행해야된다.-> 데이터 웨어하우스의 필요성

 

1. (기존) 프로덕션 시스템 - 작은 테이블로 쪼갠다. 복잡함

2. 데이터 웨어하우스 - 더 작고 간단한 테이블로 만들어진 구조를 띈다. (가운데 팩트 테이블이 있고 옆에 디멘져널한 테이블이 위치)

-> 데이터를 분석하기 위해 만든 데이터 

 

회사 서비스가 운영되는 각종 프로덕션 시스템

 

 

 

 

ETL(추출 변환 적재) / ELT(추출 적재 변환)

(문제점) 자동화가 안돼서 변환 하는 방법이 회사마다 다르다. 때문에 ETL 플랫폼들이 ELT로 변화하고 있다.  

 

 

데이터 분석가: 데이터를 해석해서 비즈니스 의사결정을 돕는 정보로 만드는 사람 (python ,SQL,쉘스크립트)

- 통계학, BI툴 시각화, 스프레드시트 & DB사용

데이터 엔지니어: 빅데이터를 처리할 수 있는 인프라 & 아키텍쳐를 만드는 사람   (python ,SQL,R)

- 프로그래밍, 수학, 빅데이터 다양한 데이터베이스 지식, ETL 및 BI 도구들에 대한 지식

데이터 사이언티스트: 수학+과학+도메인 전문가, 큰데이터도 잘다루고 복잡한 문제를 해결하는 사람  (python ,SQL,R)

- 수학, 스토리텔링, 데이터 모델링, 분산 컴퓨팅, 도메인 지식, 커뮤니케이션

 

 

 

'STUDY > Data Engineering' 카테고리의 다른 글

[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis  (0) 2022.01.16
[정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#2 데이터 소스  (0) 2022.01.15
    wonpick
    wonpick

    티스토리툴바