爬虫python步骤,python简单的爬虫程序
#用硒打开百度首页
#第一次运行代码时应该在旅行队开发者选项中设置允许远程自动化
一从硒导入webdriver2浏览器=webdriver .safari()3浏览器。get( http://www。百度一下。com/)
#远程打开百度首页,并搜索关键词并打印搜索关键词后的源代码
一从硒导入网络驱动2从selenium.webdriver.common.keys导入密钥3 driver=webdriver .safari()4驱动程序。get( http://www。百度一下。com/)5 6 #获取网中名字为(同接线图)电路图的标签7 elem=驱动程序。find _ element _ by _ name( wd )8 #搜索cxy 61 9 elem。send _ Keys( cxy 61 )10 elem。send _ Keys(按键.RETURN)11 12打印驱动程序。页面_来源
分析网页源代码
#野生动物园偏好设置中点击在菜单中显示开发者选项
#在开发中点击显示网页检查器(命令选项我)
打印我们筛选后真正需要的爬下来的数据
1 #编码:utf-8 2从硒导入网络驱动3从selenium.webdriver.common.keys导入Keys 4 5 dr=webdriver .safari()6 dr . get( https://www。求实拜克。com )7 #在控制台中发现糗事百科左边都是内容,右边是广告,而左边标签编号都是内容-左8 #获取编号为内容-左侧的[标签]9 main _ content=dr . find _ element _ by _ id( content-left )10 content=main _ content。find _ elements _ by _ class _ name( content )11 I=112 for want 2 see in content:13 print str(I)want 2 see。text \ n 14 I=115 16 #退出我们打开的浏览器17退出博士()
用类封装实现爬虫
1 #编码:utf-8 2从硒导入网络驱动3类秋白(object): 4 def __init__(self): 5 #这步干嘛6 self.dir=webdriver .Safari() 7 #所以在初始化实例时还能进行打开网页的操作8自我。导演。得到( https://www。求实拜克。com )9 10 def print _ content(self):11 #相比较于没有用类实现的爬虫,目录放在__init__方法中定义12 #下面两行代码中的元素和元素的区别?13 main _ content=self。导演。find _ element _ by _ id( content-left )14 self。内容=main _ content。对于自身中的con,find _ elements _ by _ class _ name( content )15 I=116。content:17 print string(I)con . text \ n 18 I=119 #还可以在类的方法中调用该类中定义的另一个方法20自我。退出()21 22 def退出(自我):23自我。导演。退出()24 #这里秋白()是秋白的一个实例,只是没有设置一个变量指向这个实例而已25秋白()。打印内容()效果:
转载于:https://www。cn博客。com/IcarusYu/p/7495084。超文本标记语言
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。