python爬虫入门实例,python爬虫开发从入门到实战pdf

  python爬虫入门实例,python爬虫开发从入门到实战pdf

  1、网页查看

  进入到全部小说,这就是我们要爬取的小说,这些够看很长时间了

  2、完整代码及注释分析

  导入请求

  从bs4导入美丽的声音

  导入操作系统

  进口是

  标题={

  用户代理:‘Mozilla/5.0(麦金塔;英特尔Mac OS X 10 _ 13 _ 6)苹果WebKit/537.36(KHTML像壁虎)Chrome/85。0 .4183 .83 Safari/537.36

  }

  #保存路径

  路径=。/小说

  #如果路径不存在就创建

  如果不是os.path.exists(路径):

  os.mkdir(路径)

  #访问的全球资源定位器(统一资源定位器)

  URL= http://www。xbiquge。拉/小硕大全/

  #发起得到请求

  response=requests.get(url=url,headers=headers)

  #注意设置编码,不然为乱码

  response.encoding=utf-8

  #解析网页

  数据=美汤(回应。文本,“html.parser”)

  #参考图1,获取保险商实验所下的所有里

  ul=data.find(class_=novellist ).查找全部(李)

  #遍历

  对于保险商实验所中的李:

  li_data=BeautifulSoup(str(li), html.parser )

  #参考图2

  #小说名称

  name=li_data.find(a ).文本

  #详情页全球资源定位器(统一资源定位器)

  page _ URL=Li _ data。find( a )[ href ]

  #拼接路径

  path=path /名称

  打印(正在爬取:名称)

  如果不是os.path.exists(路径):

  os.mkdir(路径)

  #向详情页发起请求

  page _ response=请求。get(URL=page _ URL,headers=headers)

  page_response.encoding=utf-8

  page _ data=美汤(page _ response。文本,“html.parser”)

  #参考图3

  dl=page_data.find(dl ).查找全部( dd )

  #遍历分升

  对于分升中的dd:

  dd_data=BeautifulSoup(str(dd), html.parser )

  #参考图四

  chapter=dd_data.find(a ).文本

  chapter _ URL= http://www。xbiquge。la DD _ data。find( a )[ href ]

  #对每一章节全球资源定位器(统一资源定位器)发起请求

  RES=请求。get(URL=chapter _ URL,headers=headers)

  res.encoding=utf-8

  尝试:

  #参考图5

  #获取每一章节中的文本内容,使用挑选选择器进行定位

  text=BeautifulSoup(res.text, html.parser ).选择( #content)[0].文本

  除了:

  及格

  #使用正则进行替换

  section_text=re.sub(\s , \r\n\t ,text).strip(\r\n ).替换(亲,点击进去,给个好评呗,分数越高更新越快,据说给新笔趣阁打满分的最后都找到了漂亮的老婆哦!手机站全新改版升级地址:http://m.xbiquge.la,数据和书签与电脑站同步,无广告清新阅读!,)

  #保存文件

  打开(路径"/"章节)。txt , wb )作为女:

  f。写(section _ text。编码( UTF 8 )查看代码

  3、图片辅助分析图一

  图2

  图3

  图四

  图5

  3、运行结果

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: