用python爬取求职信息,python爬虫找工作
在疫情阶段,找一份好工作变得更加困难,很多人会选择在网上寻找工作信息。但是有些招聘信息比较复杂。本文将向大家介绍使用Python爬虫获取招聘信息的方法,有需要的可以参考。
00-1010前言项目目标项目准备防攀爬措施项目实施效果展示总结
目录
现在疫情阶段,找个好工作比较难,很多人会选择在网上看招聘信息。但是有些招聘信息比较复杂。此外,我们无法列出所有信息。从在售的58招聘网站来看,信息没有梳理清楚。
前言
获取招聘信息,批量保存地点、公司名称、薪资并下载成txt文档。
项目目标
软件:PyCharm
所需的库:requests、lxml、fake_useragent
该网站如下:
https://gz.58.com/job/pn2/?param 7503=1 from=yjz 2 _ zhaopinPGTID=0d 302408-0000-3 EFD-48 F6-ff 64d 26 B4 B1 cc lick id={ }
点击下一页时,ClickID={}每增加一页就加1,用{}替换转换后的变量,然后用for循环遍历URL,实现多个URL请求。
项目准备
这个网站的反抓取主要有两点:
1.直接使用requests库,网站不会不设置任何头就直接返回数据。
2.同一个ip被重复访问,直接屏蔽了该ip。一开始我的ip就是这样被封的。
为了解决这两个问题,最后,通过研究,可以采用以下方法有效解决。
1.获取普通的http请求头,并在发出请求时设置这些普通的http请求头。
2.使用fake_useragent生成随机useragent进行访问。
反爬措施
1.定义一个class类来继承object,定义init方法来继承self,定义main函数main来继承self。所需的库和URL被导入,代码如下所示。
导入请求
从lxml导入etree
从fake_useragent导入用户代理
类智联招聘(对象):
def __init__(self):
self . URL= https://gz . 58.com/job/pn2/?param 7503=1 from=yjz 2 _ zhaopinpgtid=0d 302408-0000-3 EFD-48 F6-ff 64d 26 B4 B1 clichkid={ } #/Juan Chang/3360被搜索姓名的拼音缩写
def main(自身):
及格
if __name__==__main__:
Spider=Zhaopin()
Spider.main()
2.随机生成用户代理。
对于(1,50):范围内的I
self.headers={
用户代理: ua.random,
}
3.发送请求,得到响应,回调页面以方便下一个请求。
def get_page(self,url):
res=requests.get(url=url,headers=self.headers)
html=res.content.decode(utf-8 )
返回html
4.xpath分析找到相应的父节点。
def page_page(self,html):
parse_html=etree。HTML(html)
one=parse _ html . XPath(//div[@ class= main clear fix ]//div[@ class= left con ]/ul/Li )
5.对于遍历,定义一个变量food_info保存,得到二级页面对应的菜名、原料和下载链接。
对于one:中的l
o=l.xpath(。//a/span[1]/text())[0]。条状()
t=l.xpath(。//a//span[@ class= name ]/text())[0]。条状()
f=l.xpath(。//p[@class=job_salary]/text())
thr=l.xpath(。//div[@ class= comp _ name ]//a/text())[0]。条状()
对于f:中的e
boss=
%s:%s:
公司:%s,
工资:%s元/月
=========================================================
% (o,t,thr,e)
打印(str(boss)
6.将结果保存在txt文档中,如下所示。
F=打开( g.txt , a ,编码= UTF-8) #以 w 方式打开文件
f.write(str(boss))
#打印(house_dict)
F.write(\n) #键放在单独的行中,键在奇数行,值在偶数行。
f.close()
7.调用方法实现函数。
html=self.get_page(url)
self.page_page(html)
项目实现
1.点击绿色三角形进入起始页和结束页。
2.运行程序后,结果显示在控制台上,如下图所示。
3.将txt文档保存到本地,如下图所示。
4.双击文件,如下图所示。
效果展示
1.不建议抓取太多数据,这样很容易加载服务器。试试吧。
2.本文对Python爬取招聘网,应用中的难点和关键点,以及如何防止爬回做了相关的解决方案。
3.它介绍了如何拼接字符串以及如何转换列表的类型。
4.代码非常简单。希望能帮到你。
5.欢迎大家积极尝试。有时候看别人意识到很简单,但是自己去做的时候,总会出现各种各样的问题。不要谦虚,勤勤恳恳,才能更深刻的理解。
6.可以选择自己喜欢的类别,找工作,找自己喜欢的工作。
以上是如何使用Python网络爬虫获取招聘信息的详细说明。更多关于Python爬虫获取招聘信息,请关注热门IT软件开发工作室其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。