개발/ETC

[python] 중앙일보 크롤링
하나도 정리되지 않은... 코드 기간,키워드,최신순, 분야 고정시켜놓고 기사 전문을 가져오는 코드이다! RESULT_PATH = '경로' now = datetime.now() #파일이름 현 시간으로 저장하기 def get_url(): params =[] for page in tqdm(range(50)): #일부분만 기간,키워드,최신순, 분야 고정 url2 = f'https://news.joins.com/Search/TotalNews?page={page}&Keyword=%EC%B2%AD%EB%85%84&PeriodType=DirectInput&StartSearchDate=01%2F01%2F1987%2000%3A00%3A00&EndSearchDate=12%2F31%2F2020%2000%3A00%3A00&So..

[python] [Errno 54] Connection reset by peer 크롤링
[Errno 54] Connection reset by peer 크롤링하다가 에러가 났다. 요청헤더를 추가해보라고 해서 아래와같이 추가하였다. 그리고도 안된다면 예외처리를 진행해주고 진행되지 않은 링크는 따로 저장한다!!..... https://pythonq.com/so/python/57190 python - Python 처리 socket.error : [Errno 104] 피어에 의한 연결 재설정 - IT 툴 넷 python - Python 처리 socket.error : [Errno 104] 피어에 의한 연결 재설정 기사 출처 python ubuntu python-2.7 urllib2 pythonq.com
[python] 여러개의 엑셀 파일 CSV 변환 ( 한번에 불러오기 )
각각의 원본 파일을 받았는데 모두가 엑셀 자료였다. 씨에스브이로 변환이 필요하여 폴더 안에 있는 원본 파일을 모두 변환 한 뒤 각각의 파일을 데이터 프레임으로 가져왔다. 파일에 있는 엑셀을 csv 파일로 변환한 뒤 저장 후 csv파일을 다시 데이터프레임으로 불러오기! # 1️⃣ xlsx to csv import xlrd def to_csv(): for i in range(1, 7): wb = xlrd.open_workbook('경로작성/%d.xlsx'%(i)) #파일명을 숫자로 통일 후 전체 불러옴 sh = wb.sheet_by_name('Sheet1') #엑셀 시트 이름 csv_file = open("경로/%d.csv"%(i), 'w',encoding='UTF8') #csv 저장할 곳 wr = csv...

[python] 공휴일 데이터 추출하기_API 활용
공휴일 데이터를 api 활용하여 쉽게 가져오는 방법 1. 공공데이터 포털 접속 후 한국천문연구원_특일 정보 검색 2. 활용신청 3. 인증키 인코딩 정보를 하단 my_key란에 입력 끝! #api import requests from bs4 import BeautifulSoup import datetime import pandas as pd # 오류 Exceeded 30 redirects response = requests.get(url, allow_redirects=False) holiday_list = [] response = requests.get(url, allow_redirects=False) def get_request_query(url, operation, params, serviceKey):..