Python으로 PDF 파일 다운로드 및 텍스트 추출

2020. 12. 13. 16:51서버 프로그래밍

특정 사이트의 PDF 파일을 크롤링하려는데, 일반적인 방법으로 안되서 결국에는 wget 콘솔 명령을 호출해서 처리해야 했다. 다운받은 PDF 파일은 pdfminer3를 이용하여 텍스트 추출까지 해서 DB에 저장하는데는 성공했으나, PDF 파싱시에 CPU 점유율이 100%가 되는 문제가 있다.

stackoverflow.com/questions/56494070/how-to-use-pdfminer-six-with-python-3

 

How to use PDFminer.six with python 3?

I want to use pdfminer.six which is a tool, that can be used with Python3 for extracting information from PDF documents. The problem is there is no good documentation at all and no source code exam...

stackoverflow.com

 

다음은 일반적인 방법일 경우에 처리하는 방법들

likegeeks.com/downloading-files-using-python/

 

Downloading Files using Python (Simple Examples) - Like Geeks

Learn how to download files from the web using Python modules like requests, urllib, and wget. We used many techniques and download from multiple sources.

likegeeks.com

medium.com/the-innovation/notesdownloader-use-web-scraping-to-download-all-pdfs-with-python-511ea9f55e48

 

Use Web Scraping to Download All PDFs with Python

Last semester when most of my courses had their own web pages, I had to download each lecture and homework PDF individually. Downloading…

medium.com

my-devblog.tistory.com/18

 

[python] wget 사용하는 방법

Python wget 사용법 Python에서 wget을 사용하는 방법입니다. 1) wget 라이브러리 설치 먼저 wget을 사용하기 위해 python wget 라이브러리를 설치합니다. pip install wget 2) wget으로 다운로드 wget를 import하..

my-devblog.tistory.com