python网络爬虫程序,Python网络爬虫实例教程
Python实现网络爬虫的方法:1。使用请求库中的get方法请求url的web内容;2.[find ()]和[find_all ()]方法可以遍历这个html文件并提取指定的信息。
python实现网络爬虫的方法:
第一步:爬取
使用请求库中的get方法请求url的web内容。
写代码
[root @ localhost demo]# touch demo . py
[root @ localhostdemo]# vim demo . py #网络爬虫学习-分析
#获取页面信息
#输入:url
#处理:请求库函数获取页面信息,将页面内容转换成可理解的编码格式。
#输出:已爬网内容
导入请求
def getHTMLText(url):
尝试:
r=requests.get(url,timeout=30)
R.raise_for_status() #如果状态代码不是200,则会生成一个异常。
R.encoding=utf-8 #字符编码格式更改为utf-8
回复短信
例外:
#异常处理
返回“错误”
url=http://www.baidu.com
print(gethtml text(URL))[root @ localhost demo]# python 3 demo . py
第二步:分析
使用bs4库中的BeautifulSoup类生成一个对象。find()和find_all()方法可以遍历这个html文件并提取指定的信息。
写代码
[root@localhost演示]# touch demo1.py
[root @ localhost demo]# vim demo 1 . py
#网络爬虫学习-分析
#获取页面信息
#输入:url
#处理:请求库获取页面信息,从抓取的内容中提取关键信息。
# Output:打印出提取的关键信息。
导入请求
从bs4导入BeautifulSoup
进口re
def getHTMLText(url):
尝试:
r=requests.get(url,timeout=30)
R.raise_for_status() #如果状态代码不是200,则会生成一个异常。
R.encoding=utf-8 #字符编码格式更改为utf-8
回复短信
例外:
#异常处理
返回“错误”
def findHTMLText(text):
Soup=BeautifulSoup (text, html.parser) #返回一个漂亮的Soup对象
回汤。find _ all (string=re。ompile(百度)#结合正则表达式实现字符串片段匹配。
url=http://www.baidu.com
Text=gethtmlText(url) #获取HTML文本内容
Res=findHTMLText(text) #匹配结果
print(RES)# printout[root @ localhostdemo]# python 3 demo 1 . py
相关免费学习推荐:python视频教程
以上是python如何实现网络爬虫的细节。更多信息请关注盛行IT软件开发工作室的其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。