Python爬取关键词,Python request爬虫

  Python爬取关键词,Python request爬虫

  本文主要详细介绍PythonRequests爬虫的关键词搜索页面。本文中的示例代码非常详细,具有一定的参考价值。感兴趣的朋友可以参考一下,希望能帮到你。

  00-1010需求:抓取搜狗首页的页面数据,使用UA伪装得到关键词页面摘要。

  

目录

  导入请求if _ _ name _ _= _ _ main _ _ 3360 # step 13360 search URL URL= 3359123.sogou.com/# step 23360 initiate request # get方法将返回一个响应对象response=requests . get(URL=URL)# step :要获取响应数据,Text返回响应数据page _ Text=response . Text print(page _ Text)# step 43360持久存储with open(。/sogou.html , w ,encoding= utf-8 )asfp 3360 FP . write(page _ text)print(爬网数据)

  if __name__==__main__:

  #第1:步搜索网址

  url=https://123.sogou.com/

  #步骤23360发起请求

  #get方法返回一个响应对象。

  response=requests.get(url=url)

  # step:获取响应数据。text以字符串的形式返回响应数据。

  page_text=response.text

  打印(page_text)

  #步骤43360持久存储

  带开(。/sogou.html , w ,编码=utf-8 )作为fp:

  fp.write(页面_文本)

  打印(“爬网数据结束”)

  

需求:爬取搜狗首页的页面数据

  导入请求

  if __name__==__main__:

  #UA伪装3360将相应的用户代理封装到字典中。

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/98 . 0 . 4758 . 9 Safari/537.36

  }

  url=https://www.sogou.com/sie?

  #处理url携带的参数3360被封装到字典中。

  kw=输入(输入一个单词: )

  param={

  查询 :kw

  }

  #对指定url的请求对应的url携带参数,请求过程中处理参数。

  响应=请求。get (URL=URL,params=param,headers=headers) # headers是伪装成params的输入关键字

  Page_text=response.text#以文本形式输出

  文件名=千瓦。html#存储为网页

  用open(文件名, w ,编码=utf-8 )作为fp:

  Fp.write(page_text)#写入Fp

  打印(文件名,保存成功!)

  

使用UA伪装 求取关键词页面

  本文到此为止。希望能帮到你,也希望你能多关注更多热门IT软件开发工作室的内容!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: