pdfplumber读取pdf内容,Python 读取pdf

  pdfplumber读取pdf内容,Python 读取pdf

  本文为大家带来了python的一些知识,主要介绍了PDF lumber读取PDF并写入Excel的一些相关问题,包括PDF lumber模块的安装,PDF的加载,以及一些实际操作等。下面就来看看吧,希望对你有帮助。

  推荐:python视频教程

  00-1010 PDF(可移植文档格式)是一种可移植的文档格式,便于跨操作系统传播文档。PDF文档遵循标准格式,所以有很多工具可以操作PDF文档,Python也不例外。

  Python PDF模块操作对比图如下:

  本文主要介绍pdfplumber侧重于PDF内容提取,如文本(位置、字体、颜色等。)和形状(矩形、直线、曲线),以及解析表格的功能。

  

一、Python操作PDF 13大库对比

其他几个Python库帮助用户从PDF中提取信息。总的来说,pdfplumber通过结合以下功能将自己与其他PDF处理储存区区分开来:

 

  轻松访问每个PDF对象的详细信息提取文本和表格的更高级、可定制的方法紧密集成的可视化调试其他有用和实用的功能,如通过裁剪框过滤对象

二、pdfplumber模块

cmd控制台输入:

 

  Pip PDF水管工指南包:

  进口pdfplumber案例PDF截图(两页不全):

  00-1010读取PDF代码:PDF lumber . open( path/file name . PDF ,password= test ,la params={ line _ overlap 3360 0.7 })

  参数解释:

  密码:要加载受密码保护的PDF,请传递密码关键字参数laparams:要将版面分析参数设置为pdfminer的版面引擎,请传递laparams关键字参数案例代码:

  导入pdf lumber with pdf lumber . open(。/1.pdf )作为pdf:

  打印(pdf)

  打印(类型(pdf))输出结果:

  位于0x 000001 a 56 c 323 DC 0 class pdf plume . PDF . PDF

1. 安装

pdfplumber.PDF类的PDFplumber.pdf.PDF对象表示单个PDF,并具有两个主要属性:

 

  描述。元数据从PDF的信息中获取元数据键/值对的字典。一般包括“CreationDate”、“ModDate”、“Producer”等。pages返回包含PDFplumber实例的列表。页面,每个实例代表pdf1. 读取PDF文档信息(.metadata):的每个页面的信息

  导入pdf lumber with pdf lumber . open(。/1.pdf )作为pdf:

  打印(pdf.metadata)运行结果:

  { 作者 3360 旺旺余庆,评论 3360 ,公司 3360 ,创建日期 3360 d:220330113508 03 35 ,创建人 33660

  dDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}2. 输出总页数

  

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

运行结果:

 

  

2

4. pdfplumber.Page类

pdfplumber.Page类是pdfplumber整个的核心,大多数操作都围绕这个类进行操作,它具有以下几个属性:

 

  属性说明.page_number顺序页码,从1第一页开始,从第二页开始2,依此类推。.width页面的宽度。.height页面的高度。.objects/.chars/.lines/.rects/.curves/.figures/.images这些属性中的每一个都是一个列表,每个列表包含一个字典,用于嵌入页面上的每个此类对象。有关详细信息,请参阅下面的“对象”。常用方法如下

  方法名说明.extract_text()用来提页面中的文本,将页面的所有字符对象整理为的那个字符串.extract_words()返回的是所有的单词及其相关信息.extract_tables()提取页面的表格.to_image() 用于可视化调试时,返回PageImage类的一个实例.close()默认情况下,Page对象缓存其布局和对象信息,以避免重新处理它。但是,在解析大型 PDF 时,这些缓存的属性可能需要大量内存。您可以使用此方法刷新缓存并释放内存。1. 读取第一页宽度、高度等信息

  

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

运行结果:

 

  

页码: 1页宽: 595.3页高: 841.9

2. 读取文本第一页

 

  

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:

运行结果:

 

  

店铺名 价格 销量 地址

3. 读取表格第一页

 

  

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:

运行结果:

 

  

三、实战操作

1. 提取单个PDF全部页数

测试代码:

 

  

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:

运行结果(上面得没截全):

 

  

2. 批量提取多个PDF文件

 

  测试代码:

  

import pdfplumber

运行结果(12个文件,一个文件50行总共600行):

 

  推荐学习:python视频教程以上就是Python实例详解pdfplumber读取PDF写入Excel的详细内容,更多请关注盛行IT软件开发工作室其它相关文章!

  

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • php读取pdf数据,php pdf读取
  • php读取pdf数据,php pdf读取,PHP中使用mpdf 导出PDF文件的实现方法
  • kotlon协程,深入理解kotlin协程pdf,一文彻底搞懂Kotlin中的协程
  • 深入解析C#(第4版),深入解析css pdf,深入解析contentWindow, contentDocument
  • java 反射机制原理与用法详解视频,java 反射机制原理与用法详解pdf
  • java 反射机制原理与用法详解视频,java 反射机制原理与用法详解pdf,Java 反射机制原理与用法详解
  • ,,Java使用iTextPDF生成PDF文件的实现方法
  • ,,Python利用PyMuPDF实现PDF文件处理
  • 漫画算法小灰的算法之旅pdf,漫画算法2-小灰的算法进阶
  • devops和自动化运维实践 PDF,devops思想在运维方面的具体实践
  • pdf如何去除水印,pdf去水印的三种方法
  • 把a4的内容打印成a3小册子,a4的pdf文档如何打印成a3
  • nlp自然语言处理入门pdf,精通python自然语言处理 pdf
  • 容器docker基本操作,每天5分钟玩转docker容器技术 pdf
  • sklearn中文手册pdf下载,sklearn库模块及函数
  • 留言与评论(共有 条评论)
       
    验证码: