1. 하둡이란?
분산 환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈소스 프레임 워크.
2. 하둡 아키텍쳐
- 블록 구조의 파일 시스템으로, 저장하는 파일은 특정 사이즈의 블록으로 나누어져 분산된 서버에 저장됨.
- 하나의 블록은 3개(수정가능)으로 복제되며, 각각 다른 HDFS의 노드에 분산 저장됨.
- HDFS에는 마스터 역할을 하는 네임노드 서버 1대, 슬레이브 역할을 하는 데이터노드 서버 여러대로 구성 됨.
- 클라이언트가 이를 이용하여 HDFS에 저장된 파일에 접근 할 수 있음
- 하둡 어플리케이션은 HDFS에 파일을 저장하거나, 저장된 파일을 읽기 위해 HDFS 클라이언트를 사용하며
클라이언트는 API 형태로 사용자에게 제공됨.- *API란? 프로그램들과 데이터베이스, 그리고 기능들의 상호 통신 방법을 규정하고 도와주는 매개체
- 데이터 노드는 주기적으로 네임노드에서 블록 리포트(노트에 저장되어있는 블록의 정보)를 전송하고
이를 통해 네임도는 데이터 노드가 정상 동작하는지 확인 - 클라이언트는 네임노드에 접속해서 원하는 파일이 저장된 블록의 위치를 확인하고 해당 블록이 저장된 데이터 노드에서 직접 데이터를 조회함.
'개발 > Hadoop' 카테고리의 다른 글
[hadoop] Hadoop Ecosystem (0) | 2023.01.12 |
---|---|
[Hadoop] Hdfs dfs 명령어 정리 (0) | 2022.12.30 |