Python爬取关键词,Python request爬虫
本文主要详细介绍PythonRequests爬虫的关键词搜索页面。本文中的示例代码非常详细,具有一定的参考价值。感兴趣的朋友可以参考一下,希望能帮到你。
00-1010需求:抓取搜狗首页的页面数据,使用UA伪装得到关键词页面摘要。
目录
导入请求if _ _ name _ _= _ _ main _ _ 3360 # step 13360 search URL URL= 3359123.sogou.com/# step 23360 initiate request # get方法将返回一个响应对象response=requests . get(URL=URL)# step :要获取响应数据,Text返回响应数据page _ Text=response . Text print(page _ Text)# step 43360持久存储with open(。/sogou.html , w ,encoding= utf-8 )asfp 3360 FP . write(page _ text)print(爬网数据)
if __name__==__main__:
#第1:步搜索网址
url=https://123.sogou.com/
#步骤23360发起请求
#get方法返回一个响应对象。
response=requests.get(url=url)
# step:获取响应数据。text以字符串的形式返回响应数据。
page_text=response.text
打印(page_text)
#步骤43360持久存储
带开(。/sogou.html , w ,编码=utf-8 )作为fp:
fp.write(页面_文本)
打印(“爬网数据结束”)
需求:爬取搜狗首页的页面数据
导入请求
if __name__==__main__:
#UA伪装3360将相应的用户代理封装到字典中。
标题={
用户代理“:”Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/98 . 0 . 4758 . 9 Safari/537.36
}
url=https://www.sogou.com/sie?
#处理url携带的参数3360被封装到字典中。
kw=输入(输入一个单词: )
param={
查询 :kw
}
#对指定url的请求对应的url携带参数,请求过程中处理参数。
响应=请求。get (URL=URL,params=param,headers=headers) # headers是伪装成params的输入关键字
Page_text=response.text#以文本形式输出
文件名=千瓦。html#存储为网页
用open(文件名, w ,编码=utf-8 )作为fp:
Fp.write(page_text)#写入Fp
打印(文件名,保存成功!)
使用UA伪装 求取关键词页面
本文到此为止。希望能帮到你,也希望你能多关注更多热门IT软件开发工作室的内容!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。