Python批量提取PDF中的信息,python处理pdf提取指定数据
从说明:pdf文件中提取其他类型的数据,如文本或图像。它将解释如何从pdf文件中提取数据表,然后将其转换为适合进一步分析和建模的格式,并以一个示例作为介绍。
使用Python从PDF文件中提取一个表格
1.将表格复制到Excel,保存为table _ 1 _ raw.csv。
以一维格式存储的数据必须进行整形、清理和转换。
2.导入必要的库。
importpandasaspd
Importnumpyasnp3。导入原始数据并重新定义数据。
df=PD . read _ CSV( table _ 1 _ raw . CSV ,header=None)
df .值.形状
df2=pd。data frame(df . values . shape(25,10))
column_names=df2[0:1]。值[0]
df3=df2[1:]
df3.columns=df2[0:1]。值[0]
df3.head()
4.使用字符串处理工具进行数据纠缠。
我们从上表中注意到,x5、x6和x7列是以百分比表示的,因此我们需要删除百分比(%)符号3360。
df4[x5]=list(map(x : x[:-1],df4[ X5 ])。价值观))
df4[x6]=list(map(x : x[:-1],df4[ X6 ])。价值观))
4[ x7 ]=list(map(x 3360 x[3360-1],DF4 [x7])。价值观))5。将数据转换成数字形式。
我们注意到,列x5、x6和x7的列值数据类型是string,因此我们需要将它们转换为数值数据,如下面的:所示。
df4[ X5 ]=[float(x)for xind F4[ X5 ]。价值观]
df4[ X6 ]=[float(x)for xind F4[ X6 ]。价值观]
4[ x7 ]=[float(x)for xind F4[ x7 ]。价值观] 6。检查转换数据的最终形式。
df4.head(n=5)
7.最后,将最终数据导出到csv文件。
4.DFTO _ CSV(表_ 1 _最终。CSV ,index=false)内容从第一步开始就不简单,大家边看边很容易理解~更多python实用知识,点击进入PyThon学习网教学中心。
(推荐操作系统:windows7系统,Python 3.9.1,戴尔G3电脑。)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。