Python批量提取PDF中的信息,Python提取PDF数据到Excel
作为人力资源部门的小伙伴,经常需要将他人提交的PDF简历中的关键信息和数据提取到excel表格中进行汇总。这时候Python是最合适的实现方式。快来学学怎么实现吧。
00-1010简介1。将PDF文档中的文本读入word 2。将word中读取的文本输入到excel中
目录
今天给大家分享一个真实的案例。
今天收到一个人力资源部同事的请求,想把别人提交的PDF简历中的关键信息数据提取到excel中进行汇总。
背景:是求职者自己整理的简历材料,投递到人力资源部。由于其数据格式的不确定性,很难收集数据信息。
我的解决方案是:先从PDF文档中抓取文字信息保存在word文档中,然后从word文档中读取文字信息保存在excel中。
介绍
导入pdf木材
从docx导入文档
包含Plumber.open的pdf(CV 1632532336 . pdf,共1 _ 5页)为RPDF 3360
first_page=rpdf.pages[0]
print(first_page.extract_text())
doc=Document()
rpdfword=first _ page . extract _ text()
pages=doc . add _ paragraph(rpdfword)
Doc.save (Test 2.docx )
结果如下:
1.将PDF文档中的文字读取到word中
#导入所需的库
从docx导入文档
将xlwings导入为xw
#写入数据
def excel_write(a,路径,工作表名称,写入列数,写入行数):
app=xw。App(visible=False,add_book=False)
app.display_alerts=False
app.screen_updating=False
wb=app.books.open(路径)
sht=WB . sheets[工作表名称]
魏徵=[]
尝试:
i=0
而我!=len(写入列数):
j=0
而j!=len(写入行数):
weizhi . append(write _ cols[I]str(write _ rows[j]))
j=1
i=1
k=0
而k!=len(a):
sht.range(魏徵[k])。值=a[k]。文本
打印(魏徵[k])
k=1
最后:
wb.save()
wb.close()
app.kill()
if __name__==__main__:
#打开一个word文档
Document=Document(u test 2.docx )
#获取所有段落
所有段落=文档.段落
打印(len(all_paragraphs))
Excel_path=r 信息统计表(模板)。xls
SheetName=rSheet1
wcols=[c , d , I , h , e , f , j , L]
#在新的一行阅读新的简历。
wrow=[3]
excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)
结果如下:
在word中阅读汉字时,需要分配相应的关键信息字符,必要时删除非关键信息。
关于Python提取PDF简历信息并保存在Excel中的这篇文章到此结束。有关Python提取PDF信息的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。