python爬虫入门实例,python爬虫开发从入门到实战pdf
1、网页查看
进入到全部小说,这就是我们要爬取的小说,这些够看很长时间了
2、完整代码及注释分析
导入请求
从bs4导入美丽的声音
导入操作系统
进口是
标题={
用户代理:‘Mozilla/5.0(麦金塔;英特尔Mac OS X 10 _ 13 _ 6)苹果WebKit/537.36(KHTML像壁虎)Chrome/85。0 .4183 .83 Safari/537.36
}
#保存路径
路径=。/小说
#如果路径不存在就创建
如果不是os.path.exists(路径):
os.mkdir(路径)
#访问的全球资源定位器(统一资源定位器)
URL= http://www。xbiquge。拉/小硕大全/
#发起得到请求
response=requests.get(url=url,headers=headers)
#注意设置编码,不然为乱码
response.encoding=utf-8
#解析网页
数据=美汤(回应。文本,“html.parser”)
#参考图1,获取保险商实验所下的所有里
ul=data.find(class_=novellist ).查找全部(李)
#遍历
对于保险商实验所中的李:
li_data=BeautifulSoup(str(li), html.parser )
#参考图2
#小说名称
name=li_data.find(a ).文本
#详情页全球资源定位器(统一资源定位器)
page _ URL=Li _ data。find( a )[ href ]
#拼接路径
path=path /名称
打印(正在爬取:名称)
如果不是os.path.exists(路径):
os.mkdir(路径)
#向详情页发起请求
page _ response=请求。get(URL=page _ URL,headers=headers)
page_response.encoding=utf-8
page _ data=美汤(page _ response。文本,“html.parser”)
#参考图3
dl=page_data.find(dl ).查找全部( dd )
#遍历分升
对于分升中的dd:
dd_data=BeautifulSoup(str(dd), html.parser )
#参考图四
chapter=dd_data.find(a ).文本
chapter _ URL= http://www。xbiquge。la DD _ data。find( a )[ href ]
#对每一章节全球资源定位器(统一资源定位器)发起请求
RES=请求。get(URL=chapter _ URL,headers=headers)
res.encoding=utf-8
尝试:
#参考图5
#获取每一章节中的文本内容,使用挑选选择器进行定位
text=BeautifulSoup(res.text, html.parser ).选择( #content)[0].文本
除了:
及格
#使用正则进行替换
section_text=re.sub(\s , \r\n\t ,text).strip(\r\n ).替换(亲,点击进去,给个好评呗,分数越高更新越快,据说给新笔趣阁打满分的最后都找到了漂亮的老婆哦!手机站全新改版升级地址:http://m.xbiquge.la,数据和书签与电脑站同步,无广告清新阅读!,)
#保存文件
打开(路径"/"章节)。txt , wb )作为女:
f。写(section _ text。编码( UTF 8 )查看代码
3、图片辅助分析图一
图2
图3
图四
图5
3、运行结果
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。