python爬虫程序代码,python简单爬虫代码,python入门

　　python爬虫代码示例的方法：首先获取浏览器信息，使用urlencode生成post数据；然后安装pymysql，将数据存储在mysql中。

　　python爬虫代码示例的方法：

　　1、urllib和BeautifuSoup

　　获取浏览器信息

　　从urllib导入请求

　　req=request . urlopen( http://www . Baidu.com )

　　打印(req.read()。decode(utf-8 ))模拟了一个真实的浏览器：它带有用户代理头。

　　(目的是防止服务器认为它是一个爬虫，如果不获取此浏览器信息，可能会报告错误)

　　Req=请求。请求(url) #这里的url是某个url

　　req.add_header(key，value) #key是用户代理，值是浏览器的版本信息。

　　resp=request.urlopen(req)

　　打印(分别为。阅读()。解码( UTF-8 ))相关学习推荐：python视频教程

　　使用帖子

　　在urllib库下导入解析。

　　从urllib导入解析使用urlencode生成post数据。

　　postData=parse.urlencode([

　　(key1，val1)，

　　(key2，val2)，

　　(凯恩斯，瓦尔恩)

　　])使用post

　　Request.urlopern (req，data=postData . encode( UTF-8 )#使用post data发送post请求

　　Resp.status #获取请求状态

　　Resp.reason #获取服务器类型的完整代码示例(以抓取维基百科主页链接为例)

　　#-*-编码：utf-8 -*-

　　从bs4导入BeautifulSoup as bs

　　从urllib.request导入urlopen

　　进口re

　　导入ssl

　　#获取维基百科条目信息

　　SSL。_ create _ default _ https _ context=SSL_ create _ unverified _ context #证书验证的全局取消

　　#请求URL并以utf-8编码结果

　　req=urlopen( https://en . Wikipedia . org/wiki/Main page )。阅读()。解码(“utf-8”)

　　#使用beautifulsoup解析

　　soup=bs(req， html.parser )

　　#打印(汤)

　　#获取href属性以“/wiki/Special”开头的所有A标签

　　URL list=soup.findall(a,href=re.compile(^/wiki/special))

　　对于url列表：中的URL

　　#删除以结尾的链接。JPG或者。使用jpeg文件交换格式存储的编码图像文件扩展名

　　如果不是，重新搜索( \。(jpgJPG)$ ，url[href]):

　　#get_test()输出标签下的所有内容，包括子标签的内容；

　　#string只输出一个内容，如果标签有子标签，则输出“none”

　　print(URL . get _ text()- URL[ href ])

　　#打印(URL)2、存储数据到MySQL

　　安装pymysql

　　通过pip安装：

　　$ pip安装pymysql或通过安装文件：

　　$ python setup.py安装使用

　　#介绍开发套件

　　导入pymysql.cursors

　　#获取数据库链接

　　connection=pymysql . connect(host= localhost ，

　　user=root ，

　　密码=123456 ，

　　db=wikiurl ，

　　charset=utf8mb4 )

　　尝试：

　　#获取会话指针

　　以connection.cursor()作为游标

　　#创建sql语句

　　SQL= insert into ` tablename `(` URL name `, ` urlhref `)值(%s，%s)

　　#执行SQL语句

　　cursor.execute(sql，(url.get_text()， https://en . Wikipedia . org URL[ href ]))

　　#提交

　　connection.commit()

　　最后：

　　#关闭

　　连接.关闭()3、爬虫注意事项

　　Robots协议(又称爬虫协议)全称是“网络爬虫排除协议”。通过Robots协议，网站告诉搜索引擎哪些页面可以被抓取，哪些不可以。在一般主页下，如https://en.wikipedia.org/robots.txt.

　　不允许：不允许访问

　　允许：允许访问相关推荐：编程视频课程

　　这就是python如何采样爬虫代码的细节。更多信息请关注盛行IT软件开发工作室的其他相关文章！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读