python网络爬虫程序,Python网络爬虫实例教程

  python网络爬虫程序,Python网络爬虫实例教程

  Python实现网络爬虫的方法:1。使用请求库中的get方法请求url的web内容;2.[find ()]和[find_all ()]方法可以遍历这个html文件并提取指定的信息。

  python实现网络爬虫的方法:

  第一步:爬取

  使用请求库中的get方法请求url的web内容。

  写代码

  [root @ localhost demo]# touch demo . py

  [root @ localhostdemo]# vim demo . py #网络爬虫学习-分析

  #获取页面信息

  #输入:url

  #处理:请求库函数获取页面信息,将页面内容转换成可理解的编码格式。

  #输出:已爬网内容

  导入请求

  def getHTMLText(url):

  尝试:

  r=requests.get(url,timeout=30)

  R.raise_for_status() #如果状态代码不是200,则会生成一个异常。

  R.encoding=utf-8 #字符编码格式更改为utf-8

  回复短信

  例外:

  #异常处理

  返回“错误”

  url=http://www.baidu.com

  print(gethtml text(URL))[root @ localhost demo]# python 3 demo . py

  第二步:分析

  使用bs4库中的BeautifulSoup类生成一个对象。find()和find_all()方法可以遍历这个html文件并提取指定的信息。

  写代码

  [root@localhost演示]# touch demo1.py

  [root @ localhost demo]# vim demo 1 . py

  #网络爬虫学习-分析

  #获取页面信息

  #输入:url

  #处理:请求库获取页面信息,从抓取的内容中提取关键信息。

  # Output:打印出提取的关键信息。

  导入请求

  从bs4导入BeautifulSoup

  进口re

  def getHTMLText(url):

  尝试:

  r=requests.get(url,timeout=30)

  R.raise_for_status() #如果状态代码不是200,则会生成一个异常。

  R.encoding=utf-8 #字符编码格式更改为utf-8

  回复短信

  例外:

  #异常处理

  返回“错误”

  def findHTMLText(text):

  Soup=BeautifulSoup (text, html.parser) #返回一个漂亮的Soup对象

  回汤。find _ all (string=re。ompile(百度)#结合正则表达式实现字符串片段匹配。

  url=http://www.baidu.com

  Text=gethtmlText(url) #获取HTML文本内容

  Res=findHTMLText(text) #匹配结果

  print(RES)# printout[root @ localhostdemo]# python 3 demo 1 . py

  相关免费学习推荐:python视频教程

  以上是python如何实现网络爬虫的细节。更多信息请关注盛行IT软件开发工作室的其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: