분류 전체보기

    [python] 경향_원하는 섹션별로 전문 가져오기

    위와 같은 내용으로 크롤링을 진행하였고 내가 맡은 부분은 중앙일보와 경향이었다. 중앙일보는 페이지가 일관되어있고 섹션, 기간 등등 설정값을 조절 할 수 있어 매우 편리했는데, 경향은 아니었다 ㅠㅠ 뿐만 아니라 경향은 2000.08월부터 자료가 존재하여 그 이전 데이터는 찾을 수가 없었다.. 경향이 날 너무 괴롭혀서 머리가 아프다. 내가 바보인것도 맞지만🤮 누군가 내 글을 읽고 좀 편하게 자료를 추출할 수 있었으면 좋겠다.. 특히 나는 [Errno 54] Connection reset by peer 이 오류에서 한참 헤맸는데 ㅠㅠ 그냥 예외처리하면 되는거였다 2번 자료에 그렇게 진행한 코드를 작성해놓았다. (웹 크롤링과 스크레핑 대해서 공부해야겠다는 생각......) 1. 링크만 추출하는 방법 위 자료에 ..

    [python] 중앙일보 크롤링

    하나도 정리되지 않은... 코드 기간,키워드,최신순, 분야 고정시켜놓고 기사 전문을 가져오는 코드이다! RESULT_PATH = '경로' now = datetime.now() #파일이름 현 시간으로 저장하기 def get_url(): params =[] for page in tqdm(range(50)): #일부분만 기간,키워드,최신순, 분야 고정 url2 = f'https://news.joins.com/Search/TotalNews?page={page}&Keyword=%EC%B2%AD%EB%85%84&PeriodType=DirectInput&StartSearchDate=01%2F01%2F1987%2000%3A00%3A00&EndSearchDate=12%2F31%2F2020%2000%3A00%3A00&So..

    [python] [Errno 54] Connection reset by peer 크롤링

    [Errno 54] Connection reset by peer 크롤링하다가 에러가 났다. 요청헤더를 추가해보라고 해서 아래와같이 추가하였다. 그리고도 안된다면 예외처리를 진행해주고 진행되지 않은 링크는 따로 저장한다!!..... https://pythonq.com/so/python/57190 python - Python 처리 socket.error : [Errno 104] 피어에 의한 연결 재설정 - IT 툴 넷 python - Python 처리 socket.error : [Errno 104] 피어에 의한 연결 재설정 기사 출처 python ubuntu python-2.7 urllib2 pythonq.com

    [python] 여러개의 엑셀 파일 CSV 변환 ( 한번에 불러오기 )

    각각의 원본 파일을 받았는데 모두가 엑셀 자료였다. 씨에스브이로 변환이 필요하여 폴더 안에 있는 원본 파일을 모두 변환 한 뒤 각각의 파일을 데이터 프레임으로 가져왔다. 파일에 있는 엑셀을 csv 파일로 변환한 뒤 저장 후 csv파일을 다시 데이터프레임으로 불러오기! # 1️⃣ xlsx to csv import xlrd def to_csv(): for i in range(1, 7): wb = xlrd.open_workbook('경로작성/%d.xlsx'%(i)) #파일명을 숫자로 통일 후 전체 불러옴 sh = wb.sheet_by_name('Sheet1') #엑셀 시트 이름 csv_file = open("경로/%d.csv"%(i), 'w',encoding='UTF8') #csv 저장할 곳 wr = csv...