爬虫python步骤,python简单的爬虫程序

　　#用硒打开百度首页

　　#第一次运行代码时应该在旅行队开发者选项中设置允许远程自动化

　　一从硒导入webdriver2浏览器=webdriver .safari()3浏览器。get( http://www。百度一下。com/)

　　#远程打开百度首页，并搜索关键词并打印搜索关键词后的源代码

　　一从硒导入网络驱动2从selenium.webdriver.common.keys导入密钥3 driver=webdriver .safari()4驱动程序。get( http://www。百度一下。com/)5 6 #获取网中名字为（同接线图)电路图的标签7 elem=驱动程序。find _ element _ by _ name( wd )8 #搜索cxy 61 9 elem。send _ Keys( cxy 61 )10 elem。send _ Keys(按键.RETURN)11 12打印驱动程序。页面_来源

　　分析网页源代码

　　#野生动物园偏好设置中点击在菜单中显示开发者选项

　　#在开发中点击显示网页检查器（命令选项我)

　　打印我们筛选后真正需要的爬下来的数据

　　1 #编码：utf-8 2从硒导入网络驱动3从selenium.webdriver.common.keys导入Keys 4 5 dr=webdriver .safari()6 dr . get( https://www。求实拜克。com )7 #在控制台中发现糗事百科左边都是内容，右边是广告，而左边标签编号都是内容-左8 #获取编号为内容-左侧的[标签]9 main _ content=dr . find _ element _ by _ id( content-left )10 content=main _ content。find _ elements _ by _ class _ name( content )11 I=112 for want 2 see in content:13 print str(I)want 2 see。text \ n 14 I=115 16 #退出我们打开的浏览器17退出博士()

　　用类封装实现爬虫

　　1 #编码：utf-8 2从硒导入网络驱动3类秋白(object): 4 def __init__(self): 5 #这步干嘛6 self.dir=webdriver .Safari() 7 #所以在初始化实例时还能进行打开网页的操作8自我。导演。得到( https://www。求实拜克。com )9 10 def print _ content(self):11 #相比较于没有用类实现的爬虫，目录放在__init__方法中定义12 #下面两行代码中的元素和元素的区别？13 main _ content=self。导演。find _ element _ by _ id( content-left )14 self。内容=main _ content。对于自身中的con，find _ elements _ by _ class _ name( content )15 I=116。content:17 print string(I)con . text \ n 18 I=119 #还可以在类的方法中调用该类中定义的另一个方法20自我。退出()21 22 def退出(自我):23自我。导演。退出()24 #这里秋白()是秋白的一个实例，只是没有设置一个变量指向这个实例而已25秋白()。打印内容()效果：

　　转载于：https://www。cn博客。com/IcarusYu/p/7495084。超文本标记语言