wonpick
devvon
wonpick
방문자🌱
오늘
어제
  • 분류 전체보기 (146)
    • 개발 (42)
      • Spark (7)
      • Hadoop (3)
      • ML&DL (4)
      • Paper Review (0)
      • ETC (24)
    • STUDY (77)
      • Data Engineering (54)
      • Cloud (4)
      • Algorithm (5)
      • SQL (10)
      • Toy Project (1)
    • Android (2)
    • Backend (14)
    • 인턴 (0)
    • 공모전 (0)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

인기 글

태그

  • SQL
  • 최신 데이터 인프라 이해하기 #7
  • kodekloud
  • 인턴강연
  • 최신 데이터 인프라 이해하기
  • Python
  • 데이터엔지니어링
  • 쿠버네티스
  • 자연어처리
  • cka

최근 댓글

최근 글

티스토리

Designed By.hELLO
wonpick

devvon

[Hadoop] 하둡
개발/Hadoop

[Hadoop] 하둡

2022. 12. 30. 10:54

1. 하둡이란?

분산 환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈소스 프레임 워크.

 

2. 하둡 아키텍쳐

  • 블록 구조의 파일 시스템으로, 저장하는 파일은 특정 사이즈의 블록으로 나누어져 분산된 서버에 저장됨.
  • 하나의 블록은 3개(수정가능)으로 복제되며, 각각 다른 HDFS의 노드에 분산 저장됨.
  • HDFS에는 마스터 역할을 하는 네임노드 서버 1대, 슬레이브 역할을 하는 데이터노드 서버 여러대로 구성 됨. 
    • 클라이언트가 이를 이용하여 HDFS에 저장된 파일에 접근 할 수 있음
  • 하둡 어플리케이션은 HDFS에 파일을 저장하거나, 저장된 파일을 읽기 위해 HDFS 클라이언트를 사용하며
    클라이언트는 API 형태로 사용자에게 제공됨.
    • *API란? 프로그램들과 데이터베이스, 그리고 기능들의 상호 통신 방법을 규정하고 도와주는 매개체
  • 데이터 노드는 주기적으로 네임노드에서 블록 리포트(노트에 저장되어있는 블록의 정보)를 전송하고
    이를 통해 네임도는 데이터 노드가 정상 동작하는지 확인
  • 클라이언트는 네임노드에 접속해서 원하는 파일이 저장된 블록의 위치를 확인하고 해당 블록이 저장된 데이터 노드에서 직접 데이터를 조회함. 

https://snepbnt.tistory.com/56

'개발 > Hadoop' 카테고리의 다른 글

[hadoop] Hadoop Ecosystem  (0) 2023.01.12
[Hadoop] Hdfs dfs 명령어 정리  (0) 2022.12.30
    wonpick
    wonpick

    티스토리툴바