Python批量提取PDF中的信息,python处理pdf提取指定数据

  Python批量提取PDF中的信息,python处理pdf提取指定数据

  从说明:pdf文件中提取其他类型的数据,如文本或图像。它将解释如何从pdf文件中提取数据表,然后将其转换为适合进一步分析和建模的格式,并以一个示例作为介绍。

  使用Python从PDF文件中提取一个表格

  1.将表格复制到Excel,保存为table _ 1 _ raw.csv。

  以一维格式存储的数据必须进行整形、清理和转换。

  2.导入必要的库。

  importpandasaspd

  Importnumpyasnp3。导入原始数据并重新定义数据。

  df=PD . read _ CSV( table _ 1 _ raw . CSV ,header=None)

  df .值.形状

  df2=pd。data frame(df . values . shape(25,10))

  column_names=df2[0:1]。值[0]

  df3=df2[1:]

  df3.columns=df2[0:1]。值[0]

  df3.head()

  4.使用字符串处理工具进行数据纠缠。

  我们从上表中注意到,x5、x6和x7列是以百分比表示的,因此我们需要删除百分比(%)符号3360。

  df4[x5]=list(map(x : x[:-1],df4[ X5 ])。价值观))

  df4[x6]=list(map(x : x[:-1],df4[ X6 ])。价值观))

  4[ x7 ]=list(map(x 3360 x[3360-1],DF4 [x7])。价值观))5。将数据转换成数字形式。

  我们注意到,列x5、x6和x7的列值数据类型是string,因此我们需要将它们转换为数值数据,如下面的:所示。

  df4[ X5 ]=[float(x)for xind F4[ X5 ]。价值观]

  df4[ X6 ]=[float(x)for xind F4[ X6 ]。价值观]

  4[ x7 ]=[float(x)for xind F4[ x7 ]。价值观] 6。检查转换数据的最终形式。

  df4.head(n=5)

  7.最后,将最终数据导出到csv文件。

  4.DFTO _ CSV(表_ 1 _最终。CSV ,index=false)内容从第一步开始就不简单,大家边看边很容易理解~更多python实用知识,点击进入PyThon学习网教学中心。

  (推荐操作系统:windows7系统,Python 3.9.1,戴尔G3电脑。)

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: