자연어처리

    [Tesseract-OCR] 이미지에서 원하는 부분만 추출

    정형화 된 문서이고 심지어 스캔본인데 인식률이 좋지 못하다ㅠㅠ from os import listdir from os.path import isfile, join import numpy import cv2 import numpy as np import sys sys.stdout = open(r'C:\Users\user\Desktop\output.txt','w') #프린트된 출력물을 해당 경로 텍스트 파일로 저장함. a는 이어쓰기이고 w는 덮어쓰기 mypath=(r'C:\Users\user\Desktop\ocr') #이미지 5장이 들어있는 폴더 경로 onlyfiles = [ f for f in listdir(mypath) if isfile(join(mypath,f..

    khaiii 설치하기(형태소 분석)

    📌빌드 및 설치 빌드 툴 - cmake 설치하기 $ pip install cmake git clone으로 파일 다운로드 하기 $ git clone https://github.com/kakao/khaiii.git khaiii로 이동 $ cd khaiii 빌드 $ cd build $ cmake .. $ make all $ make resource #make resource 명령은 base 모델을 빌드합니다. large 모델을 빌드하고자 할 경우 다음과 같이 빌드하면 됩니다. 📌 정상 빌드 여부확인 $ ./bin/khaiii --rsc-dir=./share/khaiii 📌 테스트 및 python에서 실행 $ ./bin/khaiii --rsc-dir=./share/khaiii [2020-11-04 09:19:3..