python爬虫程序代码,python简单爬虫代码,python入门

  python爬虫程序代码,python简单爬虫代码,python入门

  python爬虫代码示例的方法:首先获取浏览器信息,使用urlencode生成post数据;然后安装pymysql,将数据存储在mysql中。

  python爬虫代码示例的方法:

  1、urllib和BeautifuSoup

  获取浏览器信息

  从urllib导入请求

  req=request . urlopen( http://www . Baidu.com )

  打印(req.read()。decode(utf-8 ))模拟了一个真实的浏览器:它带有用户代理头。

  (目的是防止服务器认为它是一个爬虫,如果不获取此浏览器信息,可能会报告错误)

  Req=请求。请求(url) #这里的url是某个url

  req.add_header(key,value) #key是用户代理,值是浏览器的版本信息。

  resp=request.urlopen(req)

  打印(分别为。阅读()。解码( UTF-8 ))相关学习推荐:python视频教程

  使用帖子

  在urllib库下导入解析。

  从urllib导入解析使用urlencode生成post数据。

  postData=parse.urlencode([

  (key1,val1),

  (key2,val2),

  (凯恩斯,瓦尔恩)

  ])使用post

  Request.urlopern (req,data=postData . encode( UTF-8 )#使用post data发送post请求

  Resp.status #获取请求状态

  Resp.reason #获取服务器类型的完整代码示例(以抓取维基百科主页链接为例)

  #-*-编码:utf-8 -*-

  从bs4导入BeautifulSoup as bs

  从urllib.request导入urlopen

  进口re

  导入ssl

  #获取维基百科条目信息

  SSL。_ create _ default _ https _ context=SSL_ create _ unverified _ context #证书验证的全局取消

  #请求URL并以utf-8编码结果

  req=urlopen( https://en . Wikipedia . org/wiki/Main page )。阅读()。解码(“utf-8”)

  #使用beautifulsoup解析

  soup=bs(req, html.parser )

  #打印(汤)

  #获取href属性以“/wiki/Special”开头的所有A标签

  URL list=soup.findall(a,href=re.compile(^/wiki/special))

  对于url列表:中的URL

  #删除以结尾的链接。JPG或者。使用jpeg文件交换格式存储的编码图像文件扩展名

  如果不是,重新搜索( \。(jpgJPG)$ ,url[href]):

  #get_test()输出标签下的所有内容,包括子标签的内容;

  #string只输出一个内容,如果标签有子标签,则输出“none”

  print(URL . get _ text()- URL[ href ])

  #打印(URL)2、存储数据到MySQL

  安装pymysql

  通过pip安装:

  $ pip安装pymysql或通过安装文件:

  $ python setup.py安装使用

  #介绍开发套件

  导入pymysql.cursors

  #获取数据库链接

  connection=pymysql . connect(host= localhost ,

  user=root ,

  密码=123456 ,

  db=wikiurl ,

  charset=utf8mb4 )

  尝试:

  #获取会话指针

  以connection.cursor()作为游标

  #创建sql语句

  SQL= insert into ` tablename `(` URL name `, ` urlhref `)值(%s,%s)

  #执行SQL语句

  cursor.execute(sql,(url.get_text(), https://en . Wikipedia . org URL[ href ]))

  #提交

  connection.commit()

  最后:

  #关闭

  连接.关闭()3、爬虫注意事项

  Robots协议(又称爬虫协议)全称是“网络爬虫排除协议”。通过Robots协议,网站告诉搜索引擎哪些页面可以被抓取,哪些不可以。在一般主页下,如https://en.wikipedia.org/robots.txt.

  不允许:不允许访问

  允许:允许访问相关推荐:编程视频课程

  这就是python如何采样爬虫代码的细节。更多信息请关注盛行IT软件开发工作室的其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: