Python拆分pdf,Python批量提取PDF中的信息

  Python拆分pdf,Python批量提取PDF中的信息

  有时候我们只需要可移植文档格式文件的扩展名(可移植文档格式的缩写)中的几页,或许还想把这几页内容整合成新的pdf,那该怎么做呢?

  准备工作:

  安装扩展库PyPDF2,参考命令

  点安装PyPDF2

  代码如下:

  从PyPDF2导入PdfFileReader、PdfFileWriter

  定义拆分_pdf(文件名,结果,开始=0,结束=无):

  从文件名中提取[开始,结束]之间的页码内容保存为结果

  # 打开原始可移植文档格式文件的扩展名(可移植文档格式的缩写)文件

  pdf _ src=文件阅读器(文件名)

  如果结束不是:

  # 获取页数

  end=pdf_src.getNumPages()

  打开(结果,“wb”)为fp:

  # 创建空白可移植文档格式文件的扩展名(可移植文档格式的缩写)文件

  pdf=PdfFileWriter()

  # 提取页面内容,写入空白文件

  对于范围内的数字(开始,结束):

  pdf。添加页面(pdf _ src。获取页面(编号))

  # 写入结果可移植文档格式文件的扩展名(可移植文档格式的缩写)

  pdf .写入

  fn=rG:\a001\第九天 pdf

  split_pdf(fn, 1.pdf ,0,3)

  split_pdf(fn, 2.pdf ,1,3)

  split_pdf(fn, 3.pdf ,2,3)

  遇见的问题一:

  回溯(最近呼叫):

  文件 G:/a001/pdf.py ,第22行,insplit_pdf(fn, 1.pdf ,0,3)

  拆分_pdf中文件" G:/a001/pdf.py "的第7行

  pdf _ src=文件阅读器(文件名)

  __init__中文件e : \ project _ luffy \ luffy \ lib \ site-packages \ py pdf F2 \ pdf。py 第1084行

  自读(流)

  文件e : \ project _ luffy \ luffy \ lib \ site-packages \ py pdf 2 \ pdf。py ,第1901行,读取中

  提高效用PdfReadError(在指定位置找不到外部参照表)

  PyPDF2.utils.PdfReadError:在指定位置找不到外部参照表

  还没有找到好的解决问题的办法,但是我在操作过程中换了一个新的pdf文件就成功了,猜测是你的pdf文件出了问题。

  遇见的问题二:

  在解决了上面的问题之后,程序可以正常的使用,但是还会出一个问题:

  PdfReadWarning: Xref表不是零索引的。对象的身份号将被更正[pdf.py:1736]

  虽然不影响,但是体验不好啊,继续解决吧

  导入系统

  如果不是sys。警告选项3360

  导入警告

  警告。简单过滤器(“忽略”)

  上面代码要加在最上面

  关于PyPDF2的内容,昨天有详细讲解过,不会的小伙伴可以查看:进阶PDF,就用Python(PyPDF2模块)

  (推荐操作系统:windows7系统、Python 3.9.1、戴尔自交第三代电脑。)

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: