爬虫python步骤,python简单的爬虫程序

  爬虫python步骤,python简单的爬虫程序

  #用硒打开百度首页

  #第一次运行代码时应该在旅行队开发者选项中设置允许远程自动化

  一从硒导入webdriver2浏览器=webdriver .safari()3浏览器。get( http://www。百度一下。com/)

  #远程打开百度首页,并搜索关键词并打印搜索关键词后的源代码

  一从硒导入网络驱动2从selenium.webdriver.common.keys导入密钥3 driver=webdriver .safari()4驱动程序。get( http://www。百度一下。com/)5 6 #获取网中名字为(同接线图)电路图的标签7 elem=驱动程序。find _ element _ by _ name( wd )8 #搜索cxy 61 9 elem。send _ Keys( cxy 61 )10 elem。send _ Keys(按键.RETURN)11 12打印驱动程序。页面_来源

  分析网页源代码

  #野生动物园偏好设置中点击在菜单中显示开发者选项

  #在开发中点击显示网页检查器(命令选项我)

  打印我们筛选后真正需要的爬下来的数据

  1 #编码:utf-8 2从硒导入网络驱动3从selenium.webdriver.common.keys导入Keys 4 5 dr=webdriver .safari()6 dr . get( https://www。求实拜克。com )7 #在控制台中发现糗事百科左边都是内容,右边是广告,而左边标签编号都是内容-左8 #获取编号为内容-左侧的[标签]9 main _ content=dr . find _ element _ by _ id( content-left )10 content=main _ content。find _ elements _ by _ class _ name( content )11 I=112 for want 2 see in content:13 print str(I)want 2 see。text \ n 14 I=115 16 #退出我们打开的浏览器17退出博士()

  用类封装实现爬虫

  1 #编码:utf-8 2从硒导入网络驱动3类秋白(object): 4 def __init__(self): 5 #这步干嘛6 self.dir=webdriver .Safari() 7 #所以在初始化实例时还能进行打开网页的操作8自我。导演。得到( https://www。求实拜克。com )9 10 def print _ content(self):11 #相比较于没有用类实现的爬虫,目录放在__init__方法中定义12 #下面两行代码中的元素和元素的区别?13 main _ content=self。导演。find _ element _ by _ id( content-left )14 self。内容=main _ content。对于自身中的con,find _ elements _ by _ class _ name( content )15 I=116。content:17 print string(I)con . text \ n 18 I=119 #还可以在类的方法中调用该类中定义的另一个方法20自我。退出()21 22 def退出(自我):23自我。导演。退出()24 #这里秋白()是秋白的一个实例,只是没有设置一个变量指向这个实例而已25秋白()。打印内容()效果:

  转载于:https://www。cn博客。com/IcarusYu/p/7495084。超文本标记语言

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: