如何用python把pdf转为word,Python转PDF
目前,有相当多的应用程序支持从PDF中提取表格。
但是转化的效果真的参差不齐。易用性也不一样。有些要求您编写自己的脚本来完成操作。
其中转换效果好、使用方便的多为收费。而且有些真的不便宜。
几经查找对比,终于找到了一款免费好用的工具。而且经过实践尝试,发现转换效果良好。
在这里,我推荐给你。希望能帮助你在阅读和写作过程中提高PDF表格的数据收集效率。
固定
它的名字叫Tabula,网站链接在这里。
该网站提供了Windows和macOS版本的下载链接,以及相应的源代码。
我的操作系统是macOS,这里以macOS版本为例。如果使用Windows,操作也是类似的。
请点击相应的链接下载并安装。
MacOS系统下载安装文件的压缩包,解压后会出现这样的目录。
双击其中的Tabula.app,在浏览器中就可以看到这样的Web界面。
让我们试着转换一个PDF文件。
试图
这里我就以BERT论文中的表单集合为例,告诉大家如何使用Tabula。
点击上图中的浏览按钮,选择硬盘上的PDF文件。
然后点击导入按钮进行导入。
导入的PDF文章将显示在pages中。
你只需要翻到相应的页面,用鼠标勾选表格区域。
然后点击右上方绿色的“预览并导出提取的数据”按钮,就可以看到提取结果了。
然后,点击导出按钮,可以将结果导出为CSV格式,并在Excel中打开。
调整
但是,在一些复杂表格的提取中,可能会将原来不同的列错误地放在一起。
比如选择这种形式的时候。
导出的结果如下所示:
我该怎么办?
其实并不难处理。
我们先将自动转换结果导出为CSV,然后用Excel打开。
以这里的第一列为例。很明显,这里的三列数据是挤在一起的。
幸运的是,因为这些数据都是用空格隔开的,所以拆分起来并不困难。
我们创建两个新的空列来容纳新分解的数据。
然后在第一列中选择要拆分的数据。
进入数据菜单,选择文本到列按钮。
在折叠的上方,一直往前走。
在第二个屏幕上,选择空格作为分段符号。
点击完成,就这样。
你看,拆分成功了吗?
总结
看完这篇教程,希望你掌握了以下技巧:你遇到的功能需求可能早就被别人解决了。所以,你可以找工具解决,而不是自己反复发明轮子;
对于工具搜索,需要掌握主动搜索的技巧。这样,可以快速定位候选人。这里有一个搜索引擎技巧的教程,链接在这里;
学习使用Tabula自动将表格从PDF文档转换为Excel可读的CSV格式;
可以使用Excel快速调整没有正确列出的转换结果。
祝你学习进步!
阅读延伸
您也可能对以下主题感兴趣。点击链接查看。
请喜欢,打赏。也可以在微信关注并置顶我的微信官方账号“nkwangshuyi”。
如果你对Python和数据科学感兴趣,不妨看看我的系列教程索引贴《如何高效入门数据科学?》,里面有更多有趣的问题和解决方法。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。