pdfplumber读取pdf内容,Python 读取pdf
本文为大家带来了python的一些知识,主要介绍了PDF lumber读取PDF并写入Excel的一些相关问题,包括PDF lumber模块的安装,PDF的加载,以及一些实际操作等。下面就来看看吧,希望对你有帮助。
推荐:python视频教程
00-1010 PDF(可移植文档格式)是一种可移植的文档格式,便于跨操作系统传播文档。PDF文档遵循标准格式,所以有很多工具可以操作PDF文档,Python也不例外。
Python PDF模块操作对比图如下:
本文主要介绍pdfplumber侧重于PDF内容提取,如文本(位置、字体、颜色等。)和形状(矩形、直线、曲线),以及解析表格的功能。
一、Python操作PDF 13大库对比
其他几个Python库帮助用户从PDF中提取信息。总的来说,pdfplumber通过结合以下功能将自己与其他PDF处理储存区区分开来:
轻松访问每个PDF对象的详细信息提取文本和表格的更高级、可定制的方法紧密集成的可视化调试其他有用和实用的功能,如通过裁剪框过滤对象
二、pdfplumber模块
cmd控制台输入:
Pip PDF水管工指南包:
进口pdfplumber案例PDF截图(两页不全):
00-1010读取PDF代码:PDF lumber . open( path/file name . PDF ,password= test ,la params={ line _ overlap 3360 0.7 })
参数解释:
密码:要加载受密码保护的PDF,请传递密码关键字参数laparams:要将版面分析参数设置为pdfminer的版面引擎,请传递laparams关键字参数案例代码:
导入pdf lumber with pdf lumber . open(。/1.pdf )作为pdf:
打印(pdf)
打印(类型(pdf))输出结果:
位于0x 000001 a 56 c 323 DC 0 class pdf plume . PDF . PDF
1. 安装
pdfplumber.PDF类的PDFplumber.pdf.PDF对象表示单个PDF,并具有两个主要属性:
描述。元数据从PDF的信息中获取元数据键/值对的字典。一般包括“CreationDate”、“ModDate”、“Producer”等。pages返回包含PDFplumber实例的列表。页面,每个实例代表pdf1. 读取PDF文档信息(.metadata):的每个页面的信息
导入pdf lumber with pdf lumber . open(。/1.pdf )作为pdf:
打印(pdf.metadata)运行结果:
{ 作者 3360 旺旺余庆,评论 3360 ,公司 3360 ,创建日期 3360 d:220330113508 03 35 ,创建人 33660
dDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}2. 输出总页数
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
运行结果:
2
4. pdfplumber.Page类
pdfplumber.Page
类是pdfplumber整个的核心,大多数操作都围绕这个类进行操作,它具有以下几个属性:
属性说明.page_number
顺序页码,从1第一页开始,从第二页开始2,依此类推。.width
页面的宽度。.height
页面的高度。.objects/.chars/.lines/.rects/.curves/.figures/.images
这些属性中的每一个都是一个列表,每个列表包含一个字典,用于嵌入页面上的每个此类对象。有关详细信息,请参阅下面的“对象”。常用方法如下:
方法名说明.extract_text()
用来提页面中的文本,将页面的所有字符对象整理为的那个字符串.extract_words()
返回的是所有的单词及其相关信息.extract_tables()
提取页面的表格.to_image()
用于可视化调试时,返回PageImage类的一个实例.close()
默认情况下,Page对象缓存其布局和对象信息,以避免重新处理它。但是,在解析大型 PDF 时,这些缓存的属性可能需要大量内存。您可以使用此方法刷新缓存并释放内存。1. 读取第一页宽度、高度等信息
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
运行结果:
页码: 1页宽: 595.3页高: 841.9
2. 读取文本第一页
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
运行结果:
店铺名 价格 销量 地址
3. 读取表格第一页
import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
运行结果:
三、实战操作
1. 提取单个PDF全部页数
测试代码:
import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
运行结果(上面得没截全):
2. 批量提取多个PDF文件
测试代码:
import pdfplumber
运行结果(12个文件,一个文件50行总共600行):
推荐学习:python视频教程以上就是Python实例详解pdfplumber读取PDF写入Excel的详细内容,更多请关注盛行IT软件开发工作室其它相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。