개발/Hadoop

[Hadoop] 하둡

wonpick 2022. 12. 30. 10:54

1. 하둡이란?

분산 환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈소스 프레임 워크.

 

2. 하둡 아키텍쳐

  • 블록 구조의 파일 시스템으로, 저장하는 파일은 특정 사이즈의 블록으로 나누어져 분산된 서버에 저장됨.
  • 하나의 블록은 3개(수정가능)으로 복제되며, 각각 다른 HDFS의 노드에 분산 저장됨.
  • HDFS에는 마스터 역할을 하는 네임노드 서버 1대, 슬레이브 역할을 하는 데이터노드 서버 여러대로 구성 됨. 
    • 클라이언트가 이를 이용하여 HDFS에 저장된 파일에 접근 할 수 있음
  • 하둡 어플리케이션은 HDFS에 파일을 저장하거나, 저장된 파일을 읽기 위해 HDFS 클라이언트를 사용하며
    클라이언트는 API 형태로 사용자에게 제공됨.
    • *API란? 프로그램들과 데이터베이스, 그리고 기능들의 상호 통신 방법을 규정하고 도와주는 매개체
  • 데이터 노드는 주기적으로 네임노드에서 블록 리포트(노트에 저장되어있는 블록의 정보)를 전송하고
    이를 통해 네임도는 데이터 노드가 정상 동작하는지 확인
  • 클라이언트는 네임노드에 접속해서 원하는 파일이 저장된 블록의 위치를 확인하고 해당 블록이 저장된 데이터 노드에서 직접 데이터를 조회함. 

https://snepbnt.tistory.com/56