wonpick
devvon
wonpick
방문자🌱
오늘
어제
  • 분류 전체보기 (146)
    • 개발 (42)
      • Spark (7)
      • Hadoop (3)
      • ML&DL (4)
      • Paper Review (0)
      • ETC (24)
    • STUDY (77)
      • Data Engineering (54)
      • Cloud (4)
      • Algorithm (5)
      • SQL (10)
      • Toy Project (1)
    • Android (2)
    • Backend (14)
    • 인턴 (0)
    • 공모전 (0)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

인기 글

태그

  • cka
  • 쿠버네티스
  • SQL
  • 자연어처리
  • Python
  • 최신 데이터 인프라 이해하기
  • kodekloud
  • 최신 데이터 인프라 이해하기 #7
  • 인턴강연
  • 데이터엔지니어링

최근 댓글

최근 글

티스토리

Designed By.hELLO
wonpick

devvon

[정리] 최신 데이터 인프라 이해하기_#2 데이터 소스
STUDY/Data Engineering

[정리] 최신 데이터 인프라 이해하기_#2 데이터 소스

2022. 1. 15. 21:21

SOURCES

- 소스들은 회사에서 발생하는 데이터를 저장하는 공간이라고도 볼 수 있지만, 저장 뿐만 아니라 발생하는 원본 소스들을 다른 곳으로 보낼 수 있는, 데이터가 생성되는 곳이다.

 

1.OLTP DB via CDC

 

- OLTP: 은행 계좌에서 이체할때 (A->B, 2가지 오퍼레이션이 일어나야지 성립). 정규화된 데이터

- OLAP: 데이터 웨어하우스에서 처리하는거랑 비슷, 복잡한 분석쿼리를 달리는 것. 정규화되지 않은 데이터(복잡한 분석쿼리 날림)

- CDC (change data capture): OLTP에서는 업데이트되는 일이 일어남.이러한 업데이트된 내용들만 다른 외부 DB로 복사하는 기술

 

OLTP DB는 트랜잭션을 기록하는데만 집중해있고 그걸 다른 곳에 쓰지 못함. OLTP 데이터를 가져다가 업데이트 된 부분만 가져와서 다른 DB로 보내주는 것이 CDC 

-> 이걸 통해 OLTP 변경분을 분석 DB로 보내 처리 할 수 있게됨.

 

2.Applications/ERP (회사 내부 데이터)

- 회사에서 운영하는 시스템들은 프로덕션 시스템(salesforce -CRM, Oracle-ERP -- ) 

- Oracle: ERP(전사적자원관리), 회사에서 일어나는 모든 자원들(인력 포함)이 발생하는게 ERP.

- Salesforce: CRM(customer success platform), 고객과 관련된 모든 행동을 처리. 

 

회사의 전사적인 데이터를 처리하는게 ERP solution

 

3.Event Collectors (사용자 데이터 수집, 내부 저장 후 외부 전송)

- 사용자가 만들어내는 모든 데이터를 발생시키고 수집 (ex 구글 어널리틱스, 페이스북 픽셀, braze, adjust -- )

 

- segment( One API ): customer data platform, 모든 데이터가 세그먼트 api를 통해서 다양한 서버들, 분석제품군으로 전송시켜준다. 

-> (segment 장점) 300개 정도의 intergration이 있다. 대부분의 솔루션들과 다 연결되어있다. 어떤 데이터를 받아와서 어디로 보낼것인가를 한번에 처리해준다. 코딩할 필요없이 한번에 묶어줌.

-> (segment 단점) 액티브 유저 기준으로 요금 책정해서 비쌈

 

- snowplow: 오픈 소스, 내가 원하는 클라우드 서비스에다가 서버 올리고 그대로 쓸 수 있어 편하다는 장점이 있다. 

 

- rudderstack: 오픈 소스, 모바일과 서버 웹에서 발생하는 데이터 캡쳐해서 처리한다음에 다른 destination으로 보냄.

-> (장점): 세그먼트 장점중의 하나인 replay 기능, 아카이브 된 이전 분석 데이터를 새로운 도구에다가 backfill 시켜줌.

 

4.Logs

- 로드밸런서 데이터, 웹 서버 access 로그 등등 

 

5.3rd Party APIs

- stripe: 온라인 결제 서비스 (미국 내에서 가장 잘쓰이는 Payments 회사)

 

6.File and Object Storge

- 이메일로 전송받은 파일, 문서 등등 

 

'STUDY > Data Engineering' 카테고리의 다른 글

[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis  (0) 2022.01.16
[정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들  (0) 2022.01.15
[정리] 최신 데이터 인프라 이해하기_#1 기본 개념과 단어 설명  (0) 2022.01.15
    wonpick
    wonpick

    티스토리툴바