用python爬取求职信息,python爬虫找工作

  用python爬取求职信息,python爬虫找工作

  在疫情阶段,找一份好工作变得更加困难,很多人会选择在网上寻找工作信息。但是有些招聘信息比较复杂。本文将向大家介绍使用Python爬虫获取招聘信息的方法,有需要的可以参考。

  00-1010前言项目目标项目准备防攀爬措施项目实施效果展示总结

  

目录

  现在疫情阶段,找个好工作比较难,很多人会选择在网上看招聘信息。但是有些招聘信息比较复杂。此外,我们无法列出所有信息。从在售的58招聘网站来看,信息没有梳理清楚。

  

前言

  获取招聘信息,批量保存地点、公司名称、薪资并下载成txt文档。

  

项目目标

  软件:PyCharm

  所需的库:requests、lxml、fake_useragent

  该网站如下:

  https://gz.58.com/job/pn2/?param 7503=1 from=yjz 2 _ zhaopinPGTID=0d 302408-0000-3 EFD-48 F6-ff 64d 26 B4 B1 cc lick id={ }

  点击下一页时,ClickID={}每增加一页就加1,用{}替换转换后的变量,然后用for循环遍历URL,实现多个URL请求。

  

项目准备

  这个网站的反抓取主要有两点:

  1.直接使用requests库,网站不会不设置任何头就直接返回数据。

  2.同一个ip被重复访问,直接屏蔽了该ip。一开始我的ip就是这样被封的。

  为了解决这两个问题,最后,通过研究,可以采用以下方法有效解决。

  1.获取普通的http请求头,并在发出请求时设置这些普通的http请求头。

  2.使用fake_useragent生成随机useragent进行访问。

  

反爬措施

  1.定义一个class类来继承object,定义init方法来继承self,定义main函数main来继承self。所需的库和URL被导入,代码如下所示。

  导入请求

  从lxml导入etree

  从fake_useragent导入用户代理

  类智联招聘(对象):

  def __init__(self):

  self . URL= https://gz . 58.com/job/pn2/?param 7503=1 from=yjz 2 _ zhaopinpgtid=0d 302408-0000-3 EFD-48 F6-ff 64d 26 B4 B1 clichkid={ } #/Juan Chang/3360被搜索姓名的拼音缩写

  def main(自身):

  及格

  if __name__==__main__:

  Spider=Zhaopin()

  Spider.main()

  2.随机生成用户代理。

  对于(1,50):范围内的I

  self.headers={

  用户代理: ua.random,

  }

  3.发送请求,得到响应,回调页面以方便下一个请求。

  def get_page(self,url):

  res=requests.get(url=url,headers=self.headers)

  html=res.content.decode(utf-8 )

  返回html

  4.xpath分析找到相应的父节点。

  def page_page(self,html):

  parse_html=etree。HTML(html)

  one=parse _ html . XPath(//div[@ class= main clear fix ]//div[@ class= left con ]/ul/Li )

  5.对于遍历,定义一个变量food_info保存,得到二级页面对应的菜名、原料和下载链接。

  对于one:中的l

  o=l.xpath(。//a/span[1]/text())[0]。条状()

  t=l.xpath(。//a//span[@ class= name ]/text())[0]。条状()

  f=l.xpath(。//p[@class=job_salary]/text())

  thr=l.xpath(。//div[@ class= comp _ name ]//a/text())[0]。条状()

  对于f:中的e

  boss=

  %s:%s:

  公司:%s,

  工资:%s元/月

  =========================================================

   % (o,t,thr,e)

  打印(str(boss)

  6.将结果保存在txt文档中,如下所示。

  F=打开( g.txt , a ,编码= UTF-8) #以 w 方式打开文件

  f.write(str(boss))

  #打印(house_dict)

  F.write(\n) #键放在单独的行中,键在奇数行,值在偶数行。

  f.close()

  7.调用方法实现函数。

  html=self.get_page(url)

  self.page_page(html)

  

项目实现

  1.点击绿色三角形进入起始页和结束页。

  2.运行程序后,结果显示在控制台上,如下图所示。

  3.将txt文档保存到本地,如下图所示。

  4.双击文件,如下图所示。

  

效果展示

  1.不建议抓取太多数据,这样很容易加载服务器。试试吧。

  2.本文对Python爬取招聘网,应用中的难点和关键点,以及如何防止爬回做了相关的解决方案。

  3.它介绍了如何拼接字符串以及如何转换列表的类型。

  4.代码非常简单。希望能帮到你。

  5.欢迎大家积极尝试。有时候看别人意识到很简单,但是自己去做的时候,总会出现各种各样的问题。不要谦虚,勤勤恳恳,才能更深刻的理解。

  6.可以选择自己喜欢的类别,找工作,找自己喜欢的工作。

  以上是如何使用Python网络爬虫获取招聘信息的详细说明。更多关于Python爬虫获取招聘信息,请关注热门IT软件开发工作室其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: