Python으로 PDF 파일 다운로드 및 텍스트 추출
2020. 12. 13. 16:51ㆍ서버 프로그래밍
특정 사이트의 PDF 파일을 크롤링하려는데, 일반적인 방법으로 안되서 결국에는 wget 콘솔 명령을 호출해서 처리해야 했다. 다운받은 PDF 파일은 pdfminer3를 이용하여 텍스트 추출까지 해서 DB에 저장하는데는 성공했으나, PDF 파싱시에 CPU 점유율이 100%가 되는 문제가 있다.
stackoverflow.com/questions/56494070/how-to-use-pdfminer-six-with-python-3
다음은 일반적인 방법일 경우에 처리하는 방법들
likegeeks.com/downloading-files-using-python/