用python爬取求职信息,python爬虫找工作

　　在疫情阶段，找一份好工作变得更加困难，很多人会选择在网上寻找工作信息。但是有些招聘信息比较复杂。本文将向大家介绍使用Python爬虫获取招聘信息的方法，有需要的可以参考。

　　00-1010前言项目目标项目准备防攀爬措施项目实施效果展示总结

前言

　　获取招聘信息，批量保存地点、公司名称、薪资并下载成txt文档。

项目目标

　　软件：PyCharm

　　所需的库：requests、lxml、fake_useragent

　　该网站如下：

　　https://gz.58.com/job/pn2/?param 7503=1 from=yjz 2 _ zhaopinPGTID=0d 302408-0000-3 EFD-48 F6-ff 64d 26 B4 B1 cc lick id={ }

　　点击下一页时，ClickID={}每增加一页就加1，用{}替换转换后的变量，然后用for循环遍历URL，实现多个URL请求。

项目准备

　　这个网站的反抓取主要有两点：

　　1.直接使用requests库，网站不会不设置任何头就直接返回数据。

　　2.同一个ip被重复访问，直接屏蔽了该ip。一开始我的ip就是这样被封的。

　　为了解决这两个问题，最后，通过研究，可以采用以下方法有效解决。

　　1.获取普通的http请求头，并在发出请求时设置这些普通的http请求头。

　　2.使用fake_useragent生成随机useragent进行访问。

反爬措施

　　1.定义一个class类来继承object，定义init方法来继承self，定义main函数main来继承self。所需的库和URL被导入，代码如下所示。

　　导入请求

　　从lxml导入etree

　　从fake_useragent导入用户代理

　　类智联招聘(对象):

　　def __init__(self):

　　self . URL= https://gz . 58.com/job/pn2/？param 7503=1 from=yjz 2 _ zhaopinpgtid=0d 302408-0000-3 EFD-48 F6-ff 64d 26 B4 B1 clichkid={ } #/Juan Chang/3360被搜索姓名的拼音缩写

　　def main(自身):

　　及格

　　if __name__==__main__:

　　Spider=Zhaopin()

　　Spider.main()

　　2.随机生成用户代理。

　　对于(1，50):范围内的I

　　self.headers={

　　用户代理： ua.random，

　　}

　　3.发送请求，得到响应，回调页面以方便下一个请求。

　　def get_page(self，url):

　　res=requests.get(url=url，headers=self.headers)

　　html=res.content.decode(utf-8 )

　　返回html

　　4.xpath分析找到相应的父节点。

　　def page_page(self，html):

　　parse_html=etree。HTML(html)

　　one=parse _ html . XPath(//div[@ class= main clear fix ]//div[@ class= left con ]/ul/Li )

　　5.对于遍历，定义一个变量food_info保存，得到二级页面对应的菜名、原料和下载链接。

　　对于one:中的l

　　o=l.xpath(。//a/span[1]/text())[0]。条状()

　　t=l.xpath(。//a//span[@ class= name ]/text())[0]。条状()

　　f=l.xpath(。//p[@class=job_salary]/text())

　　thr=l.xpath(。//div[@ class= comp _ name ]//a/text())[0]。条状()

　　对于f:中的e

　　boss=

　　%s:%s:

　　公司：%s，

　　工资：%s元/月

　　=========================================================

　　 % (o，t，thr，e)

　　打印(str(boss)

　　6.将结果保存在txt文档中，如下所示。

　　F=打开( g.txt ， a ，编码= UTF-8) #以 w 方式打开文件

　　f.write(str(boss))

　　#打印(house_dict)

　　F.write(\n) #键放在单独的行中，键在奇数行，值在偶数行。

　　f.close()

　　7.调用方法实现函数。

　　html=self.get_page(url)

　　self.page_page(html)

项目实现

　　1.点击绿色三角形进入起始页和结束页。

　　2.运行程序后，结果显示在控制台上，如下图所示。

　　3.将txt文档保存到本地，如下图所示。

　　4.双击文件，如下图所示。

效果展示

　　1.不建议抓取太多数据，这样很容易加载服务器。试试吧。

　　2.本文对Python爬取招聘网，应用中的难点和关键点，以及如何防止爬回做了相关的解决方案。

　　3.它介绍了如何拼接字符串以及如何转换列表的类型。

　　4.代码非常简单。希望能帮到你。

　　5.欢迎大家积极尝试。有时候看别人意识到很简单，但是自己去做的时候，总会出现各种各样的问题。不要谦虚，勤勤恳恳，才能更深刻的理解。

　　6.可以选择自己喜欢的类别，找工作，找自己喜欢的工作。

　　以上是如何使用Python网络爬虫获取招聘信息的详细说明。更多关于Python爬虫获取招聘信息，请关注热门IT软件开发工作室其他相关文章！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。