python3网络爬虫,python3爬虫入门教程pdf
饼干的英文原意是"点心",它是在客户端访问网服务器时,服务器在客户端硬盘上存放的信息,好像是服务器发送给客户的"点心"。服务器可以根据饼干来跟踪客户状态,这对于需要区别客户的场合(如电子商务)特别有用。
当客户端首次请求访问服务器时,服务器先在客户端存放包含该客户的相关信息的饼干,以后客户端每次请求访问服务器时,都会在超文本传送协议请求数据中包含饼干,服务器解析超文本传送协议请求中的饼干,就能由此获得关于客户的相关信息。
下面我们就来看一下python3爬虫带上甜饼干的方法:
1、直接将饼干写在页眉头部
#编码:utf-8
导入请求
从bs4导入美丽的声音
cookie= cissession=19 DFD 70 a 27 EC 0 eecf 1 Fe 3 fc 2 e 48 b 7 f 91 c 7 c 83 c 60;CNZZDATA1000201968=181584
6425-1478580135-https % 3A % 2F % 2fwww。百度一下。com % 2F 1483922031;Hm_lvt_f805f7762a9a2
37a0deac37015e9f6d9=1482722012,1483926313;hm _ lpvt _ f805 f 7762 a9 a 237 a 0 deac 37015 e 9 f 6d 9=14839
26368
header={
用户代理“:”Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36 (KHTML,像戏弄
o)镀铬/53。0 .2785 .143 Safari/537.36 ,
连接 : 保持活动,
接受“:”text/html、application/xhtml xml、application/XML;q=0.9,image/webp,*/*;q=0.8 ,
Cookie: cookie}
URL= https://www。jb51。net/article/191947。 htm
wbdata=requests.get(url,headers=header).文本
soup=BeautifulSoup(wbdata, lxml )
打印(汤)2、使用要求插入饼干
#编码:utf-8
导入请求
从bs4导入美丽的声音
cookie={
19 DFD 70 a 27 EC 0 eecf 1 Fe 3 fc 2 e 48 b 7 f 91 c 7 c 83 c 60 ,
cnzz数据100020196 : 1815846425-1478580135-https % 3A % 2F % 2fwww。百度一下。2F 1483
922031,
hm _ lvt _ f 805 f 7762 a9 a 237 a 0 deac 37015 e 9 f 6d 9 : 1482722012,1483926313 ,
hm _ lpvt _ f805 f 7762 a9 a 237 a 0 deac 37015 e 9 f 6d 9 : 1483926368
}
URL= https://www。jb51。net/article/191947。 htm
wbdata=requests.get(url,cookies=cookie).文本
soup=BeautifulSoup(wbdata, lxml )
印刷品(汤)实例扩展:
使用甜饼干登录哈工大美国计算机协会(计算机协会)站点
获取站点登录地址
http://acm.hit.edu.cn/hoj/system/login
查看要传送的邮政数据
用户和密码
代码:
#!/usr/bin/env python
# -*-编码: utf-8 -*-
__author__=pi
__电子邮件_ _=pipisorry@126.com
导入urllib.request,urllib.parse,urllib.error
导入cookiejar
log in _ URL= http://ACM击中。edu。 cn/hoj/system/log in
值={ 用户 : ***** ,密码 : * * * * * } #,提交 : 登录
postdata=urllib。解析。urlencode(值)。编码()
user _ agent=r Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/44。0 .2403 .157 Safari/537.36
标题={ 用户代理 :用户代理,连接 : 保持活动 }
cookie_filename=cookie.txt
cookie=http。库克雅尔。mozillacookiejar(cookie _ filename)
handler=URL库。请求。httpcookieprocessor(cookie)
opener=URL lib。请求。build _ opener(处理程序)
请求=URL库。请求。请求(登录网址、发布数据、标题)
尝试:
response=opener.open(请求)
page=response.read().解码()
#打印(第页)
除了urllib.error.URLError作为e:
打印(e代码,“:”,e原因)
饼干。save(ignore _ discard=True,ignore_expires=True) #保存甜饼干到cookie.txt中
打印(饼干)
对于烹饪:中的项目
打印( Name= item.name)
打印( Value= item.value)
get _ URL=http://acm.hit.edu.cn/hoj/problem/solution/?问题=1 #利用甜饼干请求訪问还有一个网址
get _ request=URL库。请求。请求(get _ URL,headers=headers)
get _ response=opener。打开(get _ request)
print(get_response.read().decode())
#打印(您没有解决这个问题在get_response.read()中. decode())推荐教程: 《Python教程》 以上就是Python3爬虫带上甜饼干的详细内容,更多请关注盛行信息技术软件开发工作室其它相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。