개발

    [Hadoop] Hdfs dfs 명령어 정리

    (3.2.2 version 기준) 자주쓰이는 명령어 https://www.geeksforgeeks.org/hdfs-commands/ https://data-flair.training/blogs/hdfs-hadoop-commands/ Hadoop 명령어 Hadoop filesystem command를 사용하기 위함. hdfs dfs [GENERIC_OPTIONS] [COMMAND_OPTIONS] 1. maxdepth (를 쓰지 않고 현재 디렉토리에서만 삭제하기) - 상황: 현재 경로에서 8자리 파일명만 삭제하고 싶다. - 설명: 현재 경로에서 8자리인 폴더를 찾은 뒤에 스크립트를 사용해서 전체 삭제. find를 사용하려고 하였으나 해당 명령어는 모든 폴더를 돌며(recursive하게) 작동하며, 하둡에서는..

    [Hadoop] 하둡

    1. 하둡이란? 분산 환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈소스 프레임 워크. 2. 하둡 아키텍쳐 블록 구조의 파일 시스템으로, 저장하는 파일은 특정 사이즈의 블록으로 나누어져 분산된 서버에 저장됨. 하나의 블록은 3개(수정가능)으로 복제되며, 각각 다른 HDFS의 노드에 분산 저장됨. HDFS에는 마스터 역할을 하는 네임노드 서버 1대, 슬레이브 역할을 하는 데이터노드 서버 여러대로 구성 됨. 클라이언트가 이를 이용하여 HDFS에 저장된 파일에 접근 할 수 있음 하둡 어플리케이션은 HDFS에 파일을 저장하거나, 저장된 파일을 읽기 위해 HDFS 클라이언트를 사용하며 클라이언트는 API 형태로 사용자에게 제공됨. *API란? 프로그램들과 데이터베이스, 그리고 기능들의 상호 통신 방..

    싱글스레드 리더십과 팀

    님께서 공유 주신 내용이라 읽어보게 되었다. https://pedrodelgallego.github.io/blog/amazon/single-threaded-model/ Single-Threaded Leaders at Amazon Single-Threaded Leaders at Amazon pedrodelgallego.github.io 싱글 스레드 리더: 그 프로젝트에만 매달리는 관리자 싱글 스레드 팀 : 그 일 외에는 아무 일도 하지 않는 팀 , 한사람에게 여러가지 책임을 동시에 부여하지 않고, 오직 하나의 주요 목표에만 집중하도록 함. 아마존은 투 피자 팀 -> 싱글 스레드 팀으로 팀을 조정함 *투 피자 모델은 6가지의 기준이 있었음. 하지만 이 기준들이 화려한 신규 기능 도입에만 점점 초점을 맞추게 ..

    [Spark DEBUG] Refresh for Dataframe while reading file 오류

    Spark에서 파일이 존재하지 않는다는 문구와 함께 다음 오류가 발생한다. 캐시된 메타데이터 정보가 업데이트되지 않아 Spark SQL에서 새로 삽입된 데이터를 쿼리하지 못하여 작업 실행 오류가 발생한다고 한다. It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved. 테이블과 관련된 모든 캐시된 항목을 업데이트 함으로 해결할 수 있다고 한다. spark.sql('refresh TABLE db명.ta..