python pdf 拆分,PDF分割合并
PyPDF2
Py2是第三方python PDF库,可以对PDF文件的页面进行分割、合并、裁剪和转换。
此外,它还可以为PDF文件添加自定义数据、水印和密码,还可以从PDF文件中检索文本和元数据。
固定
使用pip直接安装:
$ pip install PyPDF2下面是几个PDF编辑函数进行演示,代码的含义会逐行解释。
删除PDF页面
先给出实现代码,
` ` bash from py pdf 2 import PdfFileWriter,PdfFileReader output=PdfFileWriter()//1 input 1=PdfFileReader(open( example . pdf , Rb )//2 def delete _ pdf(index):pages=input 1 . getnumpages()//3 for I in range(pages):if I 1 in index:continue output . add page(input 1 . get page(I))//4 output stream=open( py pdf 2-output . pdf , WB) output.write(输出流)//1
声明用于输出PDF的实例;
读取本地PDF文件;
获取PDF文档的页数;
读取PDF的第一页,并将其添加到output输出实例;
在本地保存编辑过的文档;
合并PDF
现在PDF页面已经删除,让我们看看如何将另一个PDF中的页面合并到当前PDF中。
方法1:
您可以通过删除PDF页面来扩展和合并PDF。
从PyPDF2导入PdfFileWriter,PdfFileReader output=PdfFileWriter()input 1=PdfFileReader(open( example . pdf , Rb )//1 def merge _ pdf(add _ index,origin _ index):Pages=input 1 . getnumpages()k=0 for I in range(Pages):if I 1 in add _ index:output . add page(input 2 . get page(origin _ index[k])
遍历指定页面并合并源PDF的页面;
方法二:
除了方法1,还有另一种合并pdf的方法:
从PyPDF2导入PdfFileMerger//1 merger=PdfFileMerger()input 1=open( document 1 . pdf , Rb )//2 input 2=open( document 2 . pdf , rb)input3=open(document3.pdf , Rb )merger . append(file obj=input 1,pages=(0,3)) //3merger.merge(position=2,fileobj=input2,pages=(0,1)//4 merger . append(input 3)//5 output=open( document
阅读需要处理和合并的PDF文档;
从第一个PDF文档中取出需要合并的前3页;
将第二个PDF文档的第一页插入文档;
将第三个PDF文档附加到输出文档的末尾;
除了上面介绍的两个主要函数,PyPDF2还有一些其他的小函数:
辐状的
1.输入。getpage (1)。顺时针旋转(90)将第1页旋转90度。
添加水印
page=input 1 . get page(3)watermark=PDF file reader(open( watermark . PDF , Rb ))page . merge page(watermark . get page(0)),其中水印存储在另一个PDF文档watermark.pdf中。
加密
password= secret output . encrypt(password)首先给出一个秘密密码,然后使用encrypt对输出文档进行加密。
pdfminer
前面介绍的PyPDF2主要擅长编辑PDF页面,而在编辑文本和源数据方面比较弱。
所以,这里有另一个Python库来弥补它的不足。
PDFMiner是PDF文档的文本提取工具。它具有以下特点:
能够准确获取文本的位置和布局信息;
可以将PDF转换成HTML/XML等格式;
您可以提取目录;
可以提取标签内容;
支持多种字体类型(Type1、TrueType、Type3和CID);
支持中日韩语言和竖排文字;
固定
$ pip将pdfminer PDF安装到TxT
Pdfminer给出了GitHub的托管项目中目录工具下的一些实用工具集,比如,PDF转HTML,PDF转HTML,PDF转TXT。我们可以使用下面的命令直接在PDF文档中提出文本信息。
$ pdf2txt.py samples/simple1.pdf
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。