SOURCES
- 소스들은 회사에서 발생하는 데이터를 저장하는 공간이라고도 볼 수 있지만, 저장 뿐만 아니라 발생하는 원본 소스들을 다른 곳으로 보낼 수 있는, 데이터가 생성되는 곳이다.
1.OLTP DB via CDC
- OLTP: 은행 계좌에서 이체할때 (A->B, 2가지 오퍼레이션이 일어나야지 성립). 정규화된 데이터
- OLAP: 데이터 웨어하우스에서 처리하는거랑 비슷, 복잡한 분석쿼리를 달리는 것. 정규화되지 않은 데이터(복잡한 분석쿼리 날림)
- CDC (change data capture): OLTP에서는 업데이트되는 일이 일어남.이러한 업데이트된 내용들만 다른 외부 DB로 복사하는 기술
OLTP DB는 트랜잭션을 기록하는데만 집중해있고 그걸 다른 곳에 쓰지 못함. OLTP 데이터를 가져다가 업데이트 된 부분만 가져와서 다른 DB로 보내주는 것이 CDC
-> 이걸 통해 OLTP 변경분을 분석 DB로 보내 처리 할 수 있게됨.
2.Applications/ERP (회사 내부 데이터)
- 회사에서 운영하는 시스템들은 프로덕션 시스템(salesforce -CRM, Oracle-ERP -- )
- Oracle: ERP(전사적자원관리), 회사에서 일어나는 모든 자원들(인력 포함)이 발생하는게 ERP.
- Salesforce: CRM(customer success platform), 고객과 관련된 모든 행동을 처리.
회사의 전사적인 데이터를 처리하는게 ERP solution
3.Event Collectors (사용자 데이터 수집, 내부 저장 후 외부 전송)
- 사용자가 만들어내는 모든 데이터를 발생시키고 수집 (ex 구글 어널리틱스, 페이스북 픽셀, braze, adjust -- )
- segment( One API ): customer data platform, 모든 데이터가 세그먼트 api를 통해서 다양한 서버들, 분석제품군으로 전송시켜준다.
-> (segment 장점) 300개 정도의 intergration이 있다. 대부분의 솔루션들과 다 연결되어있다. 어떤 데이터를 받아와서 어디로 보낼것인가를 한번에 처리해준다. 코딩할 필요없이 한번에 묶어줌.
-> (segment 단점) 액티브 유저 기준으로 요금 책정해서 비쌈
- snowplow: 오픈 소스, 내가 원하는 클라우드 서비스에다가 서버 올리고 그대로 쓸 수 있어 편하다는 장점이 있다.
- rudderstack: 오픈 소스, 모바일과 서버 웹에서 발생하는 데이터 캡쳐해서 처리한다음에 다른 destination으로 보냄.
-> (장점): 세그먼트 장점중의 하나인 replay 기능, 아카이브 된 이전 분석 데이터를 새로운 도구에다가 backfill 시켜줌.
4.Logs
- 로드밸런서 데이터, 웹 서버 access 로그 등등
5.3rd Party APIs
- stripe: 온라인 결제 서비스 (미국 내에서 가장 잘쓰이는 Payments 회사)
6.File and Object Storge
- 이메일로 전송받은 파일, 문서 등등
'STUDY > Data Engineering' 카테고리의 다른 글
[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis (0) | 2022.01.16 |
---|---|
[정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#4 데이터 모델링과 워크플로우 매니저 (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#3 ETL/ELT 도구들 (0) | 2022.01.15 |
[정리] 최신 데이터 인프라 이해하기_#1 기본 개념과 단어 설명 (0) | 2022.01.15 |