这篇文章主要给大家介绍了关于大蟒数据抓取的3种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
三种数据抓取的方法
正则表达式(回复库)
美丽组(bs4)
lxml
*利用之前构建的下载网页函数,获取目标网页的html,我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例,获取html。
从获取_html导入下载
URL=' https://郭家地区。bmcx。' com/AFG _ _ guojiayudiqu/'
页面内容=下载(网址)
*假设我们需要爬取该网页中的国家名称和概况,我们依次使用这三种数据抓取的方法实现数据抓取。
1.正则表达式
从获取_html导入下载
进口关于
URL=' https://郭家地区。bmcx。' com/AFG _ _ guojiayudiqu/'
页面内容=下载(网址)
国家=re。查找所有(' H2大表体').*?)/h2 ',page_content) #注意返回的是目录
survey _ data=refind all(' trtd bgcolor=' # FFFFFF ' id=' wzneirong ').*?)/td/tr ',page_content)
survey_info_list=re.findall('p .*?)/p ',survey_data[0])
survey_info=" " .加入(调查信息列表)
打印(国家[0],调查信息)
2.BeautifulSoup(bs4)
从获取_html导入下载
从bs4导入美丽的声音
URL=' https://郭家地区。bmcx。' com/AFG _ _ guojiayudiqu/'
html=下载(网址)
#创建美丽的声音对象
soup=BeautifulSoup(html,' html.parser ')
#搜索
乡村=汤。find(attrs={ ' class ':' H2大块头' }).文本
survey _ info=汤。find(attrs={ ' id ':' wzneirong ' }).文本
打印(国家,调查信息)
3.lxml
从获取_html导入下载
从lxml导入etree #解析树
URL=' https://郭家地区。bmcx。' com/AFG _ _ guojiayudiqu/'
页面内容=下载(网址)
选择器=etree .HTML(页面内容)#可进行xpath解析
国家选择=选择器。XPath('//*[@ id=' main _ content ']/H2 ')#返回列表
对于国家选择中的国家:
打印(国家/地区。文本)
调查_选择=选择器。XPath('//*[@ id=' wzneirong ']/p ')
对于调查_选择中的调查_内容:
print(survey_content.text,end=' ')
运行结果:
最后,引用《用python写网络爬虫》 中对三种方法的性能对比,如下图:
仅供参考。
总结
到此这篇关于大蟒数据抓取3种方法的文章就介绍到这了,更多相关大蟒数据抓取内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。