python pdf 拆分,PDF分割合并

　　PyPDF2

　　Py2是第三方python PDF库，可以对PDF文件的页面进行分割、合并、裁剪和转换。

　　此外，它还可以为PDF文件添加自定义数据、水印和密码，还可以从PDF文件中检索文本和元数据。

　　固定

　　使用pip直接安装：

　　$ pip install PyPDF2下面是几个PDF编辑函数进行演示，代码的含义会逐行解释。

　　删除PDF页面

　　先给出实现代码，

　　` ` bash from py pdf 2 import PdfFileWriter，PdfFileReader output=PdfFileWriter()//1 input 1=PdfFileReader(open( example . pdf ， Rb )//2 def delete _ pdf(index):pages=input 1 . getnumpages()//3 for I in range(pages):if I 1 in index:continue output . add page(input 1 . get page(I))//4 output stream=open( py pdf 2-output . pdf ， WB) output.write(输出流)//1

　　声明用于输出PDF的实例；

　　读取本地PDF文件；

　　获取PDF文档的页数；

　　读取PDF的第一页，并将其添加到output输出实例；

　　在本地保存编辑过的文档；

　　合并PDF

　　现在PDF页面已经删除，让我们看看如何将另一个PDF中的页面合并到当前PDF中。

　　方法1:

　　您可以通过删除PDF页面来扩展和合并PDF。

　　从PyPDF2导入PdfFileWriter，PdfFileReader output=PdfFileWriter()input 1=PdfFileReader(open( example . pdf ， Rb )//1 def merge _ pdf(add _ index，origin _ index):Pages=input 1 . getnumpages()k=0 for I in range(Pages):if I 1 in add _ index:output . add page(input 2 . get page(origin _ index[k])

　　遍历指定页面并合并源PDF的页面；

　　方法二：

　　除了方法1，还有另一种合并pdf的方法：

　　从PyPDF2导入PdfFileMerger//1 merger=PdfFileMerger()input 1=open( document 1 . pdf ， Rb )//2 input 2=open( document 2 . pdf ， rb)input3=open(document3.pdf ， Rb )merger . append(file obj=input 1，pages=(0，3)) //3merger.merge(position=2，fileobj=input2，pages=(0，1)//4 merger . append(input 3)//5 output=open( document

　　阅读需要处理和合并的PDF文档；

　　从第一个PDF文档中取出需要合并的前3页；

　　将第二个PDF文档的第一页插入文档；

　　将第三个PDF文档附加到输出文档的末尾；

　　除了上面介绍的两个主要函数，PyPDF2还有一些其他的小函数：

　　辐状的

　　1.输入。getpage (1)。顺时针旋转(90)将第1页旋转90度。

　　添加水印

　　page=input 1 . get page(3)watermark=PDF file reader(open( watermark . PDF ， Rb ))page . merge page(watermark . get page(0))，其中水印存储在另一个PDF文档watermark.pdf中。

　　加密

　　password= secret output . encrypt(password)首先给出一个秘密密码，然后使用encrypt对输出文档进行加密。

　　pdfminer

　　前面介绍的PyPDF2主要擅长编辑PDF页面，而在编辑文本和源数据方面比较弱。

　　所以，这里有另一个Python库来弥补它的不足。

　　PDFMiner是PDF文档的文本提取工具。它具有以下特点：

　　能够准确获取文本的位置和布局信息；

　　可以将PDF转换成HTML/XML等格式；

　　您可以提取目录；

　　可以提取标签内容；

　　支持多种字体类型(Type1、TrueType、Type3和CID)；

　　支持中日韩语言和竖排文字；

　　固定

　　$ pip将pdfminer PDF安装到TxT

　　Pdfminer给出了GitHub的托管项目中目录工具下的一些实用工具集，比如，PDF转HTML，PDF转HTML，PDF转TXT。我们可以使用下面的命令直接在PDF文档中提出文本信息。

　　$ pdf2txt.py samples/simple1.pdf

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读