python获取数据的方法,用python提取数据

  python获取数据的方法,用python提取数据

  

  免费学习推荐:python视频教程

  三种数据抓取的方法

  正则表达式(回复库)BeautifulSoup(bs4)lxml*利用之前构建的下载网页函数,获取目标网页的html,我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例,获取html。

  从获取_html导入下载

  URL= https://郭家地区。bmcx。com/AFG _ _ guojiayudiqu/ page _ content=download(URL)*假设我们需要爬取该网页中的国家名称和概况,我们依次使用这三种数据抓取的方法实现数据抓取。

  1.正则表达式

  从获取_html导入下载导入是

  URL= https://郭家地区。bmcx。 page _ content=download(URL)country=re。查找所有( H2大表体).*?)/h2 ,page_content) #注意返回的是列出调查数据=re。find all( trtd bgcolor= # FFFFFF id= wzneirong ).*?)/td/tr ,page _ content)survey _ info _ list=re。查找全部( p(.*?)/p ,survey_data[0])survey_info= .加入(调查信息列表)打印(国家[0],调查信息)2。美丽组(bs4)

  从获取_html导入下载从bs4导入美丽组

  URL= https://郭家地区。bmcx。com/AFG _ _ guojiayudiqu/ html=download(URL)#创建美丽的声音对象soup=BeautifulSoup(html, html.parser)#搜索乡村=汤。查找(attrs={ class : H2大镖客 }).文本

  survey _ info=汤。查找(attrs={ id : wzneirong }).文本打印(国家,调查信息)3.lxml

  从获取_html导入下载从什么是导入etree #解析树URL= https://郭家地区。bmcx。 page _ content=download(URL)selector=etree .HTML(页面内容)#可进行语言解析国家选择=选择器。XPath(//*[@ id= main _ content ]/H2 )#返回列表对于国家_选择:中的国家

  对于调查_选择:中的调查_内容,打印(国家。text)survey _ select=选择器。XPath(//*[@ id= wzneirong ]/p )

  print(survey_content.text,end= )运行结果:

  最后,引用《用python写网络爬虫》 中对三种方法的性能对比,如下图:

  仅供参考。

  相关免费学习推荐:python教程(视频)

  以上就是介绍大蟒数据抓取三种方法的详细内容,更多请关注盛行信息技术软件开发工作室其它相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: