개발/ETC
[Tesseract-OCR] 이미지에서 원하는 부분만 추출
정형화 된 문서이고 심지어 스캔본인데 인식률이 좋지 못하다ㅠㅠ from os import listdir from os.path import isfile, join import numpy import cv2 import numpy as np import sys sys.stdout = open(r'C:\Users\user\Desktop\output.txt','w') #프린트된 출력물을 해당 경로 텍스트 파일로 저장함. a는 이어쓰기이고 w는 덮어쓰기 mypath=(r'C:\Users\user\Desktop\ocr') #이미지 5장이 들어있는 폴더 경로 onlyfiles = [ f for f in listdir(mypath) if isfile(join(mypath,f..
Unnamed: 0 열 제거하는 방법들 (index)
1. 포함된 열 모두 제거 df = df.loc[:, ~df.columns.str.contains('^Unnamed')] 2. 인덱스를 명시
khaiii 설치하기(형태소 분석)
📌빌드 및 설치 빌드 툴 - cmake 설치하기 $ pip install cmake git clone으로 파일 다운로드 하기 $ git clone https://github.com/kakao/khaiii.git khaiii로 이동 $ cd khaiii 빌드 $ cd build $ cmake .. $ make all $ make resource #make resource 명령은 base 모델을 빌드합니다. large 모델을 빌드하고자 할 경우 다음과 같이 빌드하면 됩니다. 📌 정상 빌드 여부확인 $ ./bin/khaiii --rsc-dir=./share/khaiii 📌 테스트 및 python에서 실행 $ ./bin/khaiii --rsc-dir=./share/khaiii [2020-11-04 09:19:3..
네이버 뉴스 정보 가져오기
첫번째 방법 import pandas as pd csv_test = pd.read_csv('C:/Users/user/m_6.csv', encoding='UTF-8') csv_test from selenium import webdriver as wd import time import re import csv from selenium.common.exceptions import NoSuchElementException csv_filename = "news_6월.csv" csv_open = open(csv_filename, "w+", newline='', encoding='utf-8') csv_writer = csv.writer(csv_open) csv_writer.writerow( ('News_Date', ..