python pdf 拆分,PDF分割合并

  python pdf 拆分,PDF分割合并

  PyPDF2

  Py2是第三方python PDF库,可以对PDF文件的页面进行分割、合并、裁剪和转换。

  此外,它还可以为PDF文件添加自定义数据、水印和密码,还可以从PDF文件中检索文本和元数据。

  固定

  使用pip直接安装:

  $ pip install PyPDF2下面是几个PDF编辑函数进行演示,代码的含义会逐行解释。

  删除PDF页面

  先给出实现代码,

  ` ` bash from py pdf 2 import PdfFileWriter,PdfFileReader output=PdfFileWriter()//1 input 1=PdfFileReader(open( example . pdf , Rb )//2 def delete _ pdf(index):pages=input 1 . getnumpages()//3 for I in range(pages):if I 1 in index:continue output . add page(input 1 . get page(I))//4 output stream=open( py pdf 2-output . pdf , WB) output.write(输出流)//1

  声明用于输出PDF的实例;

  读取本地PDF文件;

  获取PDF文档的页数;

  读取PDF的第一页,并将其添加到output输出实例;

  在本地保存编辑过的文档;

  合并PDF

  现在PDF页面已经删除,让我们看看如何将另一个PDF中的页面合并到当前PDF中。

  方法1:

  您可以通过删除PDF页面来扩展和合并PDF。

  从PyPDF2导入PdfFileWriter,PdfFileReader output=PdfFileWriter()input 1=PdfFileReader(open( example . pdf , Rb )//1 def merge _ pdf(add _ index,origin _ index):Pages=input 1 . getnumpages()k=0 for I in range(Pages):if I 1 in add _ index:output . add page(input 2 . get page(origin _ index[k])

  遍历指定页面并合并源PDF的页面;

  方法二:

  除了方法1,还有另一种合并pdf的方法:

  从PyPDF2导入PdfFileMerger//1 merger=PdfFileMerger()input 1=open( document 1 . pdf , Rb )//2 input 2=open( document 2 . pdf , rb)input3=open(document3.pdf , Rb )merger . append(file obj=input 1,pages=(0,3)) //3merger.merge(position=2,fileobj=input2,pages=(0,1)//4 merger . append(input 3)//5 output=open( document

  阅读需要处理和合并的PDF文档;

  从第一个PDF文档中取出需要合并的前3页;

  将第二个PDF文档的第一页插入文档;

  将第三个PDF文档附加到输出文档的末尾;

  除了上面介绍的两个主要函数,PyPDF2还有一些其他的小函数:

  辐状的

  1.输入。getpage (1)。顺时针旋转(90)将第1页旋转90度。

  添加水印

  page=input 1 . get page(3)watermark=PDF file reader(open( watermark . PDF , Rb ))page . merge page(watermark . get page(0)),其中水印存储在另一个PDF文档watermark.pdf中。

  加密

  password= secret output . encrypt(password)首先给出一个秘密密码,然后使用encrypt对输出文档进行加密。

  pdfminer

  前面介绍的PyPDF2主要擅长编辑PDF页面,而在编辑文本和源数据方面比较弱。

  所以,这里有另一个Python库来弥补它的不足。

  PDFMiner是PDF文档的文本提取工具。它具有以下特点:

  能够准确获取文本的位置和布局信息;

  可以将PDF转换成HTML/XML等格式;

  您可以提取目录;

  可以提取标签内容;

  支持多种字体类型(Type1、TrueType、Type3和CID);

  支持中日韩语言和竖排文字;

  固定

  $ pip将pdfminer PDF安装到TxT

  Pdfminer给出了GitHub的托管项目中目录工具下的一些实用工具集,比如,PDF转HTML,PDF转HTML,PDF转TXT。我们可以使用下面的命令直接在PDF文档中提出文本信息。

  $ pdf2txt.py samples/simple1.pdf

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: