python读取pdf表格数据,python处理pdf提取指定数据
前面提到的pdfplumber模块可以用来从pdf中提取表格数据。今天,边肖将带你举例说明。
pdfplumber库作为分析pdf文件的强大工具,可以快速将pdf文档转换成易于处理的txt文档,输出pdf文档的字符、页数、页码等信息,还可以进行页面可视化操作。在使用pdfplumber库之前,您需要安装它,即输入:
管道安装
Pdfplumber库提供了两个PDF表格提取函数,即.extract_tables()和.extract_table(),两个函数的提取结果是不同的。为了演示,我们从我们的网站下载了一份短期融资券主体的信用评级报告,是pdf格式的。选择任意一张表,其界面如下:
(1).extract_tables()
可以输出页面中的所有表格,返回一个嵌套列表,结构层次为表行单元格。此时,页面上的整个表被放入一个大列表中,原始表中的行组成大列表中的每个子列表。如果您需要输出一个外部列表元素,您将得到一个由原始表的同一行中的元素组成的列表。例如,我们执行以下程序:
importpdfplumber木材
pdf plumb . open(R f : Python财务报表主体评级报告. pdf) ASPDF3360
Page=pdf.pages[45]#设置操作页面
forrowinpage . extract _ tables():
打印(行)
Print(row[0])#打印外部列表中的第一个
元素
输出结果:
(2).extract_table( )
返回多个独立列表,其结构层次为row→cell。若页面中存在多个行数相同的表格,则默认输出顶部表格;否则,仅输出行数最多的一个表格。此时,表格的每一行都作为一个单独的列表,列表中每个元素即为原表格的各个单元格内容。若需输出某个元素,得到的便是具体的数值或字符串。如下:
withpdfplumber.open(r'F:python财务报表主体评级报告.pdf')aspdf:
page=pdf.pages[45]
forrowinpage.extract_table():
print(row)
print(row[0])#打印每个列表对应的第一个元素
输出结果:
今天的分享到这里就结束啦,对pdfminer知识遗忘的小伙伴回顾以往文章:进阶PDF,就用Python(pdfminer.six和pdfplumber模块)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。