개발/Hadoop

    [hadoop] Hadoop Ecosystem

    하둡 에코 시스템 하둡 분산처리 시스템 (HDFS)과 MapReduce 프레임워크(코어 프로젝트)로시작했으나 여러 데이터 저장, 실행 엔진, 처리 등 다양한 하둡 생태계 전반을 포함하는 의미로 발전하고있다. 하둡 생태계에는 어떤 프로젝트들이 있을까? ▼ 더보기 HDFS 하둡 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템. 여러 저장소에 대용량 파일을 나워서 저장한다. 그리고 여러 서버에 중복해서 저장하기 때문에 하나의 서버가 소실되더라도 복구할 수 있어 안정성을 높인다. YARN (Yet Another Resource Navigator) hadoop 2.0에서는 클러스터의 자원을 관리하기 위한 시스템으로 yarn이 추가되었는데, mapreduce에서 하던 일을 분산해서 하기 위해 추가되었..

    [Hadoop] Hdfs dfs 명령어 정리

    (3.2.2 version 기준) 자주쓰이는 명령어 https://www.geeksforgeeks.org/hdfs-commands/ https://data-flair.training/blogs/hdfs-hadoop-commands/ Hadoop 명령어 Hadoop filesystem command를 사용하기 위함. hdfs dfs [GENERIC_OPTIONS] [COMMAND_OPTIONS] 1. maxdepth (를 쓰지 않고 현재 디렉토리에서만 삭제하기) - 상황: 현재 경로에서 8자리 파일명만 삭제하고 싶다. - 설명: 현재 경로에서 8자리인 폴더를 찾은 뒤에 스크립트를 사용해서 전체 삭제. find를 사용하려고 하였으나 해당 명령어는 모든 폴더를 돌며(recursive하게) 작동하며, 하둡에서는..

    [Hadoop] 하둡

    1. 하둡이란? 분산 환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈소스 프레임 워크. 2. 하둡 아키텍쳐 블록 구조의 파일 시스템으로, 저장하는 파일은 특정 사이즈의 블록으로 나누어져 분산된 서버에 저장됨. 하나의 블록은 3개(수정가능)으로 복제되며, 각각 다른 HDFS의 노드에 분산 저장됨. HDFS에는 마스터 역할을 하는 네임노드 서버 1대, 슬레이브 역할을 하는 데이터노드 서버 여러대로 구성 됨. 클라이언트가 이를 이용하여 HDFS에 저장된 파일에 접근 할 수 있음 하둡 어플리케이션은 HDFS에 파일을 저장하거나, 저장된 파일을 읽기 위해 HDFS 클라이언트를 사용하며 클라이언트는 API 형태로 사용자에게 제공됨. *API란? 프로그램들과 데이터베이스, 그리고 기능들의 상호 통신 방..