python生成pdf文档,python处理pdf数据

　　1.pdf文件阅读器

　　方法：py pdf2。pdf filereader (stream，stripe=true，warndest=None，overwrite warn=true)stream:* file对象或文件默认值为Truewarndest:记录警告的目标。默认值为sys.stderr bool:warnings.py是自定义实现。Python模块(默认为真)PDF FileReader对象的属性文档信息字典getfields(tree=none，retval=None)用于搜索PDF文件。要确定是否覆盖目标对象的页码getDocumentInfo，fileObj=None))如果此PDF包含交互式表格字段，提取字段数据(getFormTextFields))从文档中搜索带有文本的数据的表格字段getnamedestinations(tree=none)(进入下拉列表)，Retval=None)获取文档中指定的目标getNumPages)，并获取此PDF文件的页数。GetOuges计算轮廓)搜索文档中出现的文档轮廓。getpage(页码)从该PDF文件中搜索指定页码的页面。getPageLayout(页面布局getpage模式)，然后getpage模式getpage获取pageObject的页码getXmpMetadata()获取XMP数据是从PDF文档的根目录加密的，只读boolean属性namedDestinations表示PDF文档是否加密。

　　从py pdf 2导入pdf文件生成器，Pdffilewriterfiler=r c:_ users _ _ _ _ _ _ _ _ _ MRRS _ _ _ Python项目开发实践第二版。pdf# Get pdf ffon print)获取文档信息document info=PDF Print(document info={ }。Format) DocumentInfo))获取页面布局=PDF FileReader。get page layout)(print)page layout)模式pagemode=p pagelayout {}。格式(。pagemode))来获取xmp元数据=PDF filereader。format (xmp元数据)以获取pdf文件的页数pagenumber=pdf filereader。format)) PageNumber(:)是PageObjectPageObj=pdf filereader . get page(index)print( index={ } returns page obj={ } 的页码。form image)PDF文档中的type(page obj)(class py PDF 2 . PDF . page object))。

　　并且属性描述addattachment(fname，fdata)在PDF中嵌入了文件addblankpage (width=none，height=None)。向此PDF文件添加空白页并添加boood。Add bold=False，italic=False，fit=/fit，* args) addjs(JavaScriptaddlink打开此PDF时启动的JavaScript。添加链接)通常从PdfFileRe添加页面。

　　Ader实例获取getNumpages()页数getPage(pageNumber)从该PDF文件中检索一个带编号的页面insertblankpage (width=none，height=none，index=0)，在该PDF文件中插入一个空白页并返回它。如果未指定页面大小，则使用最后一页的大小在此pdf文件中插入一页，insertPage(page，index=0)，通常从PdfFileReader的实例中获取removeLinks()，从输出中删除连接框的注释，删除文本(ignore bytestringObject=false)，从输出中删除图像，写入(stream)，并将添加到此对象的页面集写入PDF文件。PDF写入操作

　　addblankpage():ReadFile= c:/users/administrator/desktop/rx Java full parsed . PDF outfile= c:/users/administrator/desktop/copy . PDF PDF file writer=PDF file writer()# Get PDF file reader对象PDF file reader=PDF file reader(ReadFile)#或者这样：PDF file reader=PDF file reader(open(ReadFile， Rb ))NumPages=PDF file reader . getnumpages()#获取范围内索引的总页数(0，0 Wb))#写入文件内容pdfFileWriter.addBlankPage() #在文件的最后一页写一个空白页，保存到文件pdfFileWriter。 Write (open (outfile， WB ))分割文档。

　　def splitting pdf():read file= c:/users/administrator/desktop/r Java完全解析. pdf outfile= c:/users/administrator/desktop/copy。 pdf pdf文件编写器=pdf文件编写器()#获取可移植文档格式文件的扩展名（portable document format的缩写）文件管理器对象pdf filemover=pdf filemover(读取文件)#或者这个方式：pdf filemover=pdf filemover(打开)(读取文件， Rb )#文档总页数num pages=pdf fileler。getnumpages()如果数字页面5: #则为从第五页之后的页面，输出到一个新的文件中，即分割文档对于范围内的索引(5，num页):page obj=pdf filearchiver。获取页面(索引)pdf filewriter。添加页面(页面对象)#添加完每页，再一起保存至文件中pdfFileWriter.write(打开(输出文件，“wb”)文件合并文档

　　定义合并pdf(内文件，外文件):" "合并文档：param infilelist:要合并的文档的列表：参数输出文件：合并后的输出文件：return: pdf文件编写器=pdf文件编写器()表示嵌入：#依次循环打开要合并文件pdf reader=pdf file reader(open(infile， Rb )num pages=pdf reader。范围(0，numpages)中索引的getnumpages():page obj=pdf reader。获取页面(索引)pdf文件编写器。添加页面(页面对象)#最后，统一写入到输出文件中pdf文件编写器。写(出文件，“WB”)3页对象

　　PageObject(pdf=None，indirectref=none)此类表示便携文档格式格式文件中的单个页面，通常这个对象是通过访问可移植文档格式文件的扩展名（portable document format的缩写）文件管理器对象的getpage()方法来得到的，也可以使用createBlankPage()静态方法创建一个空的页面。

　　参数：

　　可移植文档格式文件的扩展名（portable document format的缩写）文件：页面所属的便携文档格式格式文件。

　　间接参考：将源对象的原始间接引用存储在其源便携文档格式格式中

　　页面对象-页面物件对象的属性和方法属性或方法描述静态createBlankPage(pdf=无、宽度=无、高度=无)返回一个新的空白页面提取文本()找到所有文本绘图命令，按照他们在内容流中提供的顺序，并提取文本getcontents()访问页面内容，返回很高兴见到你对象或角度(角度)顺时针旋转90 度楼梯(sx、sy)通过向其内容应用转换矩阵并更新页面大小粗略读取便携文档格式格式文本内容

　　def getpdf content(filename):pdf=pdf fileler(open(filename， Rb )content= for I in range(0，pdf。getnumpages()):page obj=pdf。get page(I)extract ed text=page obj。extract text()content=extract ed text \ n #返回内容。encode( ascii ， ignore )返回内容