本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来. 首先,我们读入一些模块,以进行文件操作。(推荐学习:Python视频教程)
演示目录下,有两个文件夹,分别是pdf和newpdf。 我们指定 pdf 文件所在路径为其中的pdf文件夹。
我们希望获得所有 pdf 文件的路径。用glob,一条命令就能完成这个功能。
看看我们获得的 pdf 文件路径是否正确。
经验证。准确无误。 下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。
用这个函数,我们尝试从 pdf 文件列表中的第一篇里,抽取内容,并且把文本保存在 content 变量里。
显然,内容抽取并不完美,页眉页脚等信息都混了进来。不过,对于我们的许多文本分析用途来说,这无关紧要。 更多Python相关技术文章,请访问Python教程栏目进行学习! (责任编辑:admin) |