pdfplumber读取pdf内容,Python 读取pdf

　　本文为大家带来了python的一些知识，主要介绍了PDF lumber读取PDF并写入Excel的一些相关问题，包括PDF lumber模块的安装，PDF的加载，以及一些实际操作等。下面就来看看吧，希望对你有帮助。

一、Python操作PDF 13大库对比

其他几个Python库帮助用户从PDF中提取信息。总的来说，pdfplumber通过结合以下功能将自己与其他PDF处理储存区区分开来：

　　轻松访问每个PDF对象的详细信息提取文本和表格的更高级、可定制的方法紧密集成的可视化调试其他有用和实用的功能，如通过裁剪框过滤对象

二、pdfplumber模块

cmd控制台输入：

　　Pip PDF水管工指南包：

　　进口pdfplumber案例PDF截图(两页不全):

　　00-1010读取PDF代码：PDF lumber . open( path/file name . PDF ，password= test ，la params={ line _ overlap 3360 0.7 })

　　参数解释：

　　密码：要加载受密码保护的PDF，请传递密码关键字参数laparams:要将版面分析参数设置为pdfminer的版面引擎，请传递laparams关键字参数案例代码：

　　导入pdf lumber with pdf lumber . open(。/1.pdf )作为pdf:

　　打印(pdf)

　　打印(类型(pdf))输出结果：

　　位于0x 000001 a 56 c 323 DC 0 class pdf plume . PDF . PDF

1. 安装

pdfplumber.PDF类的PDFplumber.pdf.PDF对象表示单个PDF，并具有两个主要属性：

　　描述。元数据从PDF的信息中获取元数据键/值对的字典。一般包括“CreationDate”、“ModDate”、“Producer”等。pages返回包含PDFplumber实例的列表。页面，每个实例代表pdf1. 读取PDF文档信息（.metadata）:的每个页面的信息

　　导入pdf lumber with pdf lumber . open(。/1.pdf )作为pdf:

　　打印(pdf.metadata)运行结果：

　　{ 作者 3360 旺旺余庆，评论 3360 ，公司 3360 ，创建日期 3360 d:220330113508 03 35 ，创建人 33660

　　dDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}2. 输出总页数

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

运行结果：

4. pdfplumber.Page类

pdfplumber.Page类是pdfplumber整个的核心，大多数操作都围绕这个类进行操作，它具有以下几个属性：

　　属性说明.page_number顺序页码，从1第一页开始，从第二页开始2，依此类推。.width页面的宽度。.height页面的高度。.objects/.chars/.lines/.rects/.curves/.figures/.images这些属性中的每一个都是一个列表，每个列表包含一个字典，用于嵌入页面上的每个此类对象。有关详细信息，请参阅下面的“对象”。常用方法如下：

　　方法名说明.extract_text()用来提页面中的文本，将页面的所有字符对象整理为的那个字符串.extract_words()返回的是所有的单词及其相关信息.extract_tables()提取页面的表格.to_image() 用于可视化调试时，返回PageImage类的一个实例.close()默认情况下，Page对象缓存其布局和对象信息，以避免重新处理它。但是，在解析大型 PDF 时，这些缓存的属性可能需要大量内存。您可以使用此方法刷新缓存并释放内存。1. 读取第一页宽度、高度等信息

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

运行结果：

页码： 1页宽： 595.3页高： 841.9

2. 读取文本第一页

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

运行结果：

店铺名 价格 销量 地址

3. 读取表格第一页

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:

运行结果：

三、实战操作

1. 提取单个PDF全部页数

测试代码：

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:

运行结果（上面得没截全）：

2. 批量提取多个PDF文件

　　测试代码：

import pdfplumber

运行结果（12个文件，一个文件50行总共600行）：

　　推荐学习：python视频教程以上就是Python实例详解pdfplumber读取PDF写入Excel的详细内容，更多请关注盛行IT软件开发工作室其它相关文章！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

一、Python操作PDF 13大库对比

二、pdfplumber模块

1. 安装

4. pdfplumber.Page类

三、实战操作

1. 提取单个PDF全部页数

2. 批量提取多个PDF文件

相关文章阅读