분류 전체보기
[python] zsh: command not found: conda 에러 해결
conda 명령어 사용시 에러가 났다. zsh: command not found: conda #입력시 zsh가 나오면 경로를 명시해줘야한다. echo $SHELL 아나콘다가 설치되어 있음에도 경로 에러가 나는 이유는 bash와 다르게 zsh는 경로가 자동으로 지정되지 않는다고 한다. 1. zshrc 파일 열기 vi ~/.zshrc vim 명령어 확인 더보기 1. 저장만 :w 2. 종료만 :q 3. 강제종료 :q! 4. 저장 후 종료 :wq 5. 번호 확인 :set nu 6. 줄 전체 삭제 dd 2. anaconda path 명시 #username 확인 echo $USER #경로명시 export PATH="/Users/[UserName]/opt/anaconda3/bin:$PATH" 3. conda 명령어 ..
[정리] 최신 데이터 인프라 이해하기_#7 - Kafka Streams, kSQL, ksqlDB, Apache Flink, Spark Structured Streaming
Ingestion and Transformation Streaming Processing kafka는 real time, spark는 마이크로 배치 Kafka Streams kafka streams는 JVM client library이다. 스트림에 대해서 처리한다음에 다시 kafka에 저장한다. 카프카에 올라가는 event stream에 대해서 어떤 처리를 하는 것들인데, 카프카 스트림즈는 JVM client library를 활용해서 JAVA로 코딩을 할수있다. kafka cluster에서 streams API를 통해, 우리의 앱은 실제로 kafka cluster 밖에 있지만. 밖에서 kafka cluster에서 카프카에 이벤트가 올라오면 streams API 가져다가 우리 앱이 처리하고 그걸 다시 저장..
[정리] 최신 데이터 인프라 이해하기_#6 Kafka, Pulsar, Kinesis
Ingestion and Transformation 데이터 엔지니어링에서 스트리밍이 중요한 이유? - 데이터 가용성 때문. 어떤 데이터를 언제 누가 접근할 수 있게 해주는가. 데이터 웨어하우스 - 데이터 웨어하우스는 오래전부터 있었는데, 클라우드 시절 이전이라 한정된 공간에 넣어야된다보니 분석을 위한 데이터만 뽑아서 사용하여 엄격한 스키마를 사용해야했다. - 데이터는 ETL, transform이 끝나고 로드하는 시점(적재)부터 접근이 가능한데 BI 도구를 통해서만 접근이 가능했다. 그래서 실시간은 불가능하고 느렸다. 하둡을 이용한 배치시스템 - 여러 스키마들을 지원하나 똑같이 배치를 통해서 하다보니(로드한 시점 이후) 실시간은 불가능했다 - BI도구 뿐만 아니라 python과 같은 도구를 통한 접근이 가..
[정리] 최신 데이터 인프라 이해하기_#5 Spark, Python, Hive
Ingestion and Transformation - spark 플랫폼은 데이터를 가져와서 처리하는데, spark sql처리를 하든 streaming를 하든 머신러닝을 하든 대규모로 처리하게 해주는게 spark이다. (python, scala 등 다양한 언어 지원) - 배치쿼리 엔진 hive랑 연결해서 다양한 데이터 소스 가져다가 처리 가능함. 4. Spark Platform - 워크 플로우 매니저에서는 task를 실행하는데, 그 task가 빅데이터를 다루기 위해선 수백대 수천대 기기에서 분할해서 분석하는 작업이 이루어져야한다. 에어플로우는 분할해서 분석처리하는 것은 아니고, task를 수행하는 엔진이기 때문에 spark를 통해 빅데이터 분석작업을 시킨다. (spark가 생긴 후 에어플로우가 생겼다.)..