python爬虫常用的模块,python中调用什么模块
python爬虫的常用模块:
推荐:python爬虫库及相关工具
Python标准库——urllib模块
功能:打开URL和http协议等
注意:在python 3.x中,urllib库和urilib2库合并为urllib库。
其中urllib2.urlopen()变成了urllib.request.urlopen()和urllib2。Request()变成了urllib.request.Request()
Urllib请求返回网页。
urllib.request.urlopen
Urllib.request.open (URL [,data,[timeout,[CAfile,[capth [,CADefault,[context]]])urllib . requset . urlione可以打开HTTP (main)、HTTPS、FTP、协议的URL。
Ca认证
在发布模式下提交URL时会使用数据
提交url网络地址(整个过程前端需要协议名,后端需要端口http:/192.168.1.1:80)
超时超时设置
函数还有三种方法可以返回对象。
Geturl()返回响应的url信息。
通用url redirect info()返回响应的基本信息。
Getcode()返回响应的状态代码。
示例:
#编码:utf-8
导入urllib.request
导入时间
导入平台
#清屏功能(没关系就不写了)
定义清除():
打印(u“过多内容3秒后清除屏幕”)
时间.睡眠(3)
OS=platform.system()
if (OS==uWindows):
操作系统(“cls”)
else:
os.system(“清除”)
#访问功能
def linkbaidu():
url=http://www.baidu.com
尝试:
response=URL lib . request . urlopen(URL,timeout=3)
除了urllib。URLError:
打印(u“网络地址错误”)
退出()
用open(/home/ifeng/PycharmProjects/PAC hong/study/Baidu . txt , w )作为fp:
response=URL lib . request . urlopen(URL,timeout=3)
fp.write(response.read())
Print(u get url信息,response . geturl()\ n :% s % response . getrul())
Print(u get返回代码,response . getcode()\ n :% s % response . getcode())
Print(u 获取返回的信息,response . info()\ n :% s % response . info())
打印(u 获取的网页信息用baidu.txt保存)
if __name__==main:
链接百度()Python标准库logging模块
日志模块可以代替打印功能,将标准输出保存到日志文件中,日志模块可以部分代替debug。
re模块
正则表达式
sys模块
系统相关模块
Sys.argv(返回包含所有命令行的列表)
Sys.exit(退出程序)
Scrapy框架
urllib和re的结合太落后了,现在主流是Scrapy框架。
更多Python相关技术文章,请访问Python教程专栏学习!这就是python爬虫需要调用哪些模块的细节。更多信息请关注热门IT软件开发工作室其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。