분류 전체보기

    [Hadoop] 하둡

    1. 하둡이란? 분산 환경에서 빅데이터를 저장하고 처리할 수 있는 자바 기반의 오픈소스 프레임 워크. 2. 하둡 아키텍쳐 블록 구조의 파일 시스템으로, 저장하는 파일은 특정 사이즈의 블록으로 나누어져 분산된 서버에 저장됨. 하나의 블록은 3개(수정가능)으로 복제되며, 각각 다른 HDFS의 노드에 분산 저장됨. HDFS에는 마스터 역할을 하는 네임노드 서버 1대, 슬레이브 역할을 하는 데이터노드 서버 여러대로 구성 됨. 클라이언트가 이를 이용하여 HDFS에 저장된 파일에 접근 할 수 있음 하둡 어플리케이션은 HDFS에 파일을 저장하거나, 저장된 파일을 읽기 위해 HDFS 클라이언트를 사용하며 클라이언트는 API 형태로 사용자에게 제공됨. *API란? 프로그램들과 데이터베이스, 그리고 기능들의 상호 통신 방..

    싱글스레드 리더십과 팀

    님께서 공유 주신 내용이라 읽어보게 되었다. https://pedrodelgallego.github.io/blog/amazon/single-threaded-model/ Single-Threaded Leaders at Amazon Single-Threaded Leaders at Amazon pedrodelgallego.github.io 싱글 스레드 리더: 그 프로젝트에만 매달리는 관리자 싱글 스레드 팀 : 그 일 외에는 아무 일도 하지 않는 팀 , 한사람에게 여러가지 책임을 동시에 부여하지 않고, 오직 하나의 주요 목표에만 집중하도록 함. 아마존은 투 피자 팀 -> 싱글 스레드 팀으로 팀을 조정함 *투 피자 모델은 6가지의 기준이 있었음. 하지만 이 기준들이 화려한 신규 기능 도입에만 점점 초점을 맞추게 ..

    [Spark DEBUG] Refresh for Dataframe while reading file 오류

    Spark에서 파일이 존재하지 않는다는 문구와 함께 다음 오류가 발생한다. 캐시된 메타데이터 정보가 업데이트되지 않아 Spark SQL에서 새로 삽입된 데이터를 쿼리하지 못하여 작업 실행 오류가 발생한다고 한다. It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved. 테이블과 관련된 모든 캐시된 항목을 업데이트 함으로 해결할 수 있다고 한다. spark.sql('refresh TABLE db명.ta..

    Linux 명령어

    0. 복사 1-1. 호스트간의 파일 복사 scp 명령어 사용 scp란? ssh 원격 접속 프로토콜을 기반으로 한 SecureCopy(scp)의 약자로서 원격지에 있는 파일과 디렉터리를 보내거나 가져올 때 사용하는 파일 전송 프로토콜. 사용법? scp [옵션] [파일명] [원격지_id]@[원격지_ip=호스트ip]:[받는 위치] scp [이동 시킬 파일] [이동 할 경로] 예시 동일하게 윈도우 c드라이브 USER 하위에서만 이동이 가능 scp ./파일명.py 원격호스트ip@호스트ip: 전달할 경로 옵션 scp -r 디렉토리 내 모든 파일/디렉토리 복사 scp -p (소문자)원본 권한 속성 유지 복사 scp -P [포트번호] (대문자)포트 번호 지정 복사 scp -c 압축 복사 scp -v 과정 출력 복사 s..