Python拆分pdf,Python批量提取PDF中的信息
有时候我们只需要可移植文档格式文件的扩展名(可移植文档格式的缩写)中的几页,或许还想把这几页内容整合成新的pdf,那该怎么做呢?
准备工作:
安装扩展库PyPDF2,参考命令
点安装PyPDF2
代码如下:
从PyPDF2导入PdfFileReader、PdfFileWriter
定义拆分_pdf(文件名,结果,开始=0,结束=无):
从文件名中提取[开始,结束]之间的页码内容保存为结果
# 打开原始可移植文档格式文件的扩展名(可移植文档格式的缩写)文件
pdf _ src=文件阅读器(文件名)
如果结束不是:
# 获取页数
end=pdf_src.getNumPages()
打开(结果,“wb”)为fp:
# 创建空白可移植文档格式文件的扩展名(可移植文档格式的缩写)文件
pdf=PdfFileWriter()
# 提取页面内容,写入空白文件
对于范围内的数字(开始,结束):
pdf。添加页面(pdf _ src。获取页面(编号))
# 写入结果可移植文档格式文件的扩展名(可移植文档格式的缩写)
pdf .写入
fn=rG:\a001\第九天 pdf
split_pdf(fn, 1.pdf ,0,3)
split_pdf(fn, 2.pdf ,1,3)
split_pdf(fn, 3.pdf ,2,3)
遇见的问题一:
回溯(最近呼叫):
文件 G:/a001/pdf.py ,第22行,insplit_pdf(fn, 1.pdf ,0,3)
拆分_pdf中文件" G:/a001/pdf.py "的第7行
pdf _ src=文件阅读器(文件名)
__init__中文件e : \ project _ luffy \ luffy \ lib \ site-packages \ py pdf F2 \ pdf。py 第1084行
自读(流)
文件e : \ project _ luffy \ luffy \ lib \ site-packages \ py pdf 2 \ pdf。py ,第1901行,读取中
提高效用PdfReadError(在指定位置找不到外部参照表)
PyPDF2.utils.PdfReadError:在指定位置找不到外部参照表
还没有找到好的解决问题的办法,但是我在操作过程中换了一个新的pdf文件就成功了,猜测是你的pdf文件出了问题。
遇见的问题二:
在解决了上面的问题之后,程序可以正常的使用,但是还会出一个问题:
PdfReadWarning: Xref表不是零索引的。对象的身份号将被更正[pdf.py:1736]
虽然不影响,但是体验不好啊,继续解决吧
导入系统
如果不是sys。警告选项3360
导入警告
警告。简单过滤器(“忽略”)
上面代码要加在最上面
关于PyPDF2的内容,昨天有详细讲解过,不会的小伙伴可以查看:进阶PDF,就用Python(PyPDF2模块)
(推荐操作系统:windows7系统、Python 3.9.1、戴尔自交第三代电脑。)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。