python爬虫程序代码,python简单爬虫代码,python入门
python爬虫代码示例的方法:首先获取浏览器信息,使用urlencode生成post数据;然后安装pymysql,将数据存储在mysql中。
python爬虫代码示例的方法:
1、urllib和BeautifuSoup
获取浏览器信息
从urllib导入请求
req=request . urlopen( http://www . Baidu.com )
打印(req.read()。decode(utf-8 ))模拟了一个真实的浏览器:它带有用户代理头。
(目的是防止服务器认为它是一个爬虫,如果不获取此浏览器信息,可能会报告错误)
Req=请求。请求(url) #这里的url是某个url
req.add_header(key,value) #key是用户代理,值是浏览器的版本信息。
resp=request.urlopen(req)
打印(分别为。阅读()。解码( UTF-8 ))相关学习推荐:python视频教程
使用帖子
在urllib库下导入解析。
从urllib导入解析使用urlencode生成post数据。
postData=parse.urlencode([
(key1,val1),
(key2,val2),
(凯恩斯,瓦尔恩)
])使用post
Request.urlopern (req,data=postData . encode( UTF-8 )#使用post data发送post请求
Resp.status #获取请求状态
Resp.reason #获取服务器类型的完整代码示例(以抓取维基百科主页链接为例)
#-*-编码:utf-8 -*-
从bs4导入BeautifulSoup as bs
从urllib.request导入urlopen
进口re
导入ssl
#获取维基百科条目信息
SSL。_ create _ default _ https _ context=SSL_ create _ unverified _ context #证书验证的全局取消
#请求URL并以utf-8编码结果
req=urlopen( https://en . Wikipedia . org/wiki/Main page )。阅读()。解码(“utf-8”)
#使用beautifulsoup解析
soup=bs(req, html.parser )
#打印(汤)
#获取href属性以“/wiki/Special”开头的所有A标签
URL list=soup.findall(a,href=re.compile(^/wiki/special))
对于url列表:中的URL
#删除以结尾的链接。JPG或者。使用jpeg文件交换格式存储的编码图像文件扩展名
如果不是,重新搜索( \。(jpgJPG)$ ,url[href]):
#get_test()输出标签下的所有内容,包括子标签的内容;
#string只输出一个内容,如果标签有子标签,则输出“none”
print(URL . get _ text()- URL[ href ])
#打印(URL)2、存储数据到MySQL
安装pymysql
通过pip安装:
$ pip安装pymysql或通过安装文件:
$ python setup.py安装使用
#介绍开发套件
导入pymysql.cursors
#获取数据库链接
connection=pymysql . connect(host= localhost ,
user=root ,
密码=123456 ,
db=wikiurl ,
charset=utf8mb4 )
尝试:
#获取会话指针
以connection.cursor()作为游标
#创建sql语句
SQL= insert into ` tablename `(` URL name `, ` urlhref `)值(%s,%s)
#执行SQL语句
cursor.execute(sql,(url.get_text(), https://en . Wikipedia . org URL[ href ]))
#提交
connection.commit()
最后:
#关闭
连接.关闭()3、爬虫注意事项
Robots协议(又称爬虫协议)全称是“网络爬虫排除协议”。通过Robots协议,网站告诉搜索引擎哪些页面可以被抓取,哪些不可以。在一般主页下,如https://en.wikipedia.org/robots.txt.
不允许:不允许访问
允许:允许访问相关推荐:编程视频课程
这就是python如何采样爬虫代码的细节。更多信息请关注盛行IT软件开发工作室的其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。