python爬虫常用的模块,python中调用什么模块

  python爬虫常用的模块,python中调用什么模块

  python爬虫的常用模块:

  推荐:python爬虫库及相关工具

  Python标准库——urllib模块

  功能:打开URL和http协议等

  注意:在python 3.x中,urllib库和urilib2库合并为urllib库。

  其中urllib2.urlopen()变成了urllib.request.urlopen()和urllib2。Request()变成了urllib.request.Request()

  Urllib请求返回网页。

  urllib.request.urlopen

  Urllib.request.open (URL [,data,[timeout,[CAfile,[capth [,CADefault,[context]]])urllib . requset . urlione可以打开HTTP (main)、HTTPS、FTP、协议的URL。

  Ca认证

  在发布模式下提交URL时会使用数据

  提交url网络地址(整个过程前端需要协议名,后端需要端口http:/192.168.1.1:80)

  超时超时设置

  函数还有三种方法可以返回对象。

  Geturl()返回响应的url信息。

  通用url redirect info()返回响应的基本信息。

  Getcode()返回响应的状态代码。

  示例:

  #编码:utf-8

  导入urllib.request

  导入时间

  导入平台

  #清屏功能(没关系就不写了)

  定义清除():

  打印(u“过多内容3秒后清除屏幕”)

  时间.睡眠(3)

  OS=platform.system()

  if (OS==uWindows):

  操作系统(“cls”)

  else:

  os.system(“清除”)

  #访问功能

  def linkbaidu():

  url=http://www.baidu.com

  尝试:

  response=URL lib . request . urlopen(URL,timeout=3)

  除了urllib。URLError:

  打印(u“网络地址错误”)

  退出()

  用open(/home/ifeng/PycharmProjects/PAC hong/study/Baidu . txt , w )作为fp:

  response=URL lib . request . urlopen(URL,timeout=3)

  fp.write(response.read())

  Print(u get url信息,response . geturl()\ n :% s % response . getrul())

  Print(u get返回代码,response . getcode()\ n :% s % response . getcode())

  Print(u 获取返回的信息,response . info()\ n :% s % response . info())

  打印(u 获取的网页信息用baidu.txt保存)

  if __name__==main:

  链接百度()Python标准库logging模块

  日志模块可以代替打印功能,将标准输出保存到日志文件中,日志模块可以部分代替debug。

  re模块

  正则表达式

  sys模块

  系统相关模块

  Sys.argv(返回包含所有命令行的列表)

  Sys.exit(退出程序)

  Scrapy框架

  urllib和re的结合太落后了,现在主流是Scrapy框架。

  更多Python相关技术文章,请访问Python教程专栏学习!这就是python爬虫需要调用哪些模块的细节。更多信息请关注热门IT软件开发工作室其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: