개발/ETC
[python] 문자->숫자, 타입 변환 오류
# object에서 숫자로 타입을 변환하고자 함. >> df3['d'] = df3['d'].apply(pd.to_numeric) 😡ValueError: Unable to parse string "34,659.1" at position 0 #옵션추가로 해결 >> df3['d] = df3['d'].apply(pd.to_numeric, errors = 'coerce') 해결) 옵션 추가 errors = 'coerce' -> 해당 오류가 뜨는 이유는 문자열 사이에 숫자로 된 문자열이 아닌 문자로된 문자열이 존재해서라고 한다. 오류를 무시하고 문자열을 강제로 숫자형태로 변환(NAN)하면 해결!!이긴 하지만... 나같은 경우에는 육안상 ..
[python] 폴더 안 . csv 불러오고 1개의 파일로 만들기
폴더 안에 있는 csv 파이을 모두 불러 온 뒤에 1개의 파일로 합치는 작업 진행 #지정한 파일안에 있는 .csv 형태의 파일을 리스트로 가져오기 import os import pandas as pd path = (r'/Users/dawon/Desktop/3년데이터/') file_list = os.listdir(path) file_list_py = [file for file in file_list if file.endswith('.csv')] ## 파일명 끝이 .csv인 경로 ## .csv를 DataFrame으로 불러와서 concat 합치기 df = pd.DataFrame() for i in file_list_py: #저장시 ;기호로 구분했기 때문에 명시. data ..
[python]엄청 큰 csv파일 읽기
맨날 메모리 부족 error_bad_lines : bool, 너무 많은 필드가있는 기본 True Line (예 : 너무 많은 쉼표가있는 csv 라인)은 기본적으로 예외를 발생시키고 DataFrame이 반환되지 않습니다. False이면 반환되는 DataFrame에서 이러한 "불량 행"이 삭제됩니다. warn_bad_lines : bool, 기본값 True, error_bad_lines가 False이고 warn_bad_lines가 True이면 각 "불량 라인"에 대한 경고가 출력됩니다. ## chunk size를 달리하여 2개를 돌림 아래는 100. 100 & 10000 ## 시도1 import pandas as pd def do_processing(data): indexs = data.index.value..
[Tesseract-OCR] 이미지에서 원하는 부분만 추출
정형화 된 문서이고 심지어 스캔본인데 인식률이 좋지 못하다ㅠㅠ from os import listdir from os.path import isfile, join import numpy import cv2 import numpy as np import sys sys.stdout = open(r'C:\Users\user\Desktop\output.txt','w') #프린트된 출력물을 해당 경로 텍스트 파일로 저장함. a는 이어쓰기이고 w는 덮어쓰기 mypath=(r'C:\Users\user\Desktop\ocr') #이미지 5장이 들어있는 폴더 경로 onlyfiles = [ f for f in listdir(mypath) if isfile(join(mypath,f..