python读取pdf表格数据,python处理pdf提取指定数据

　　前面提到的pdfplumber模块可以用来从pdf中提取表格数据。今天，边肖将带你举例说明。

　　pdfplumber库作为分析pdf文件的强大工具，可以快速将pdf文档转换成易于处理的txt文档，输出pdf文档的字符、页数、页码等信息，还可以进行页面可视化操作。在使用pdfplumber库之前，您需要安装它，即输入：

　　管道安装

　　Pdfplumber库提供了两个PDF表格提取函数，即.extract_tables()和.extract_table(),两个函数的提取结果是不同的。为了演示，我们从我们的网站下载了一份短期融资券主体的信用评级报告，是pdf格式的。选择任意一张表，其界面如下：

　　（1）.extract_tables()

　　可以输出页面中的所有表格，返回一个嵌套列表，结构层次为表行单元格。此时，页面上的整个表被放入一个大列表中，原始表中的行组成大列表中的每个子列表。如果您需要输出一个外部列表元素，您将得到一个由原始表的同一行中的元素组成的列表。例如，我们执行以下程序：

　　importpdfplumber木材

　　pdf plumb . open(R f : Python财务报表主体评级报告. pdf) ASPDF3360

　　Page=pdf.pages[45]#设置操作页面

　　forrowinpage . extract _ tables():

　　打印(行)

　　Print(row[0])#打印外部列表中的第一个

　　元素

输出结果：

（2）.extract_table( )

返回多个独立列表，其结构层次为row→cell。若页面中存在多个行数相同的表格，则默认输出顶部表格；否则，仅输出行数最多的一个表格。此时，表格的每一行都作为一个单独的列表，列表中每个元素即为原表格的各个单元格内容。若需输出某个元素，得到的便是具体的数值或字符串。如下：

withpdfplumber.open(r'F:python财务报表主体评级报告.pdf')aspdf:
page=pdf.pages[45]
forrowinpage.extract_table():
print(row)
print(row[0])#打印每个列表对应的第一个元素

输出结果：

今天的分享到这里就结束啦，对pdfminer知识遗忘的小伙伴回顾以往文章：进阶PDF，就用Python（pdfminer.six和pdfplumber模块）

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。