python中bs4是什么意思,python中bs4模块

  python中bs4是什么意思,python中bs4模块

  美汤库俗称bs4库,支持Python3。这是一个非常好的写爬虫的第三方库。因为非常好用,很流畅。所以也叫“好喝的汤”。目前bs4库的最新版本是4.60。以下是本库最基本的用途,但详细内容请参考“官方文档”

  安装bs4库

  Python的优势在于,作为一种开源语言,很多开发者都在开发第三方库。这样,当我们的开发人员试图实现某个功能时,只要专注于实现某个特定的功能,其他的细节和基础部分都可以交给数据库。Bs4库是我们写爬虫的有力助手。

  安装方法非常简单。使用pip工具在命令行上安装$ pip install beautifulsoup4。

  接下来,我们来看看bs4库$ pip list是否已经成功安装。

  bs4库已成功安装。

  bs4库的简单使用

  下面简单介绍一下bs4库的使用。

  暂且不论如何从网上爬取网页,

  假设需要爬的html如下:

  下面的HTML代码被多次用作示例。这是《寒生梦游仙境》(以下简称寒生文档)的内容:

  睡鼠的故事睡鼠的故事

  从前,有三个小姐妹;他们的名字是

  example.com/elsie街3358号,

  example.com/lacie大街3358号

  example.com/tillie街3358号,蒂莉;

  他们住在井底。

  让我们开始用bs4库分析这段html页面代码。导入bs4模块

  从bs4导入BeautifulSoup

  美味的汤

  soup=beautifulsoup(html, html.parser ).

  #输出结果

  print(soup . pretty))

  ""

  出局:

  #

  #

  #

  #睡鼠的故事

  #

  #

  #

  #

  #

  #睡鼠的故事

  #

  #

  #

  # onceuponatimetherewerethree little sisters;他们的名字是

  #

  #埃尔西

  #

  #,

  #

  #莱西

  #

  #还有

  #

  #蒂莉

  #

  #;他们住在井底。

  #

  #

  # .

  #

  #

  #

  ""

  您可以看到bs4库将web文件转换成了soup类型。

  实际上,bs4库是一个分析、遍历、维护和“标签树”功能的库。

  简单地说,bs4库重新格式化html源代码,

  易于操作的节点、标签、属性等。

  以下是引用结构化数据的一些简单方法。

  仔细看开头的html文件,找到#文档的标题。

  汤.标题

  #

  睡鼠的故事#title的名称值

  soup.title.name

  # utitle

  #字符串#title的字符串

  汤.标题.字符串

  #睡鼠的故事

  #title的父节点的名称属性

  soup.title.parent.name

  #你的头

  #在文档中找到的第一段

  汤. p

  #

  睡鼠的故事

  找到p的# class属性值

  汤,汤

  # utitle

  找到了#a标记。

  汤

  # http://example.com/elsie id= link 1 埃尔希

  #找到所有的A标签

  soup.find_all(a).

  # http://example.com/elsie id= link 1 埃尔西,

  # http://example.com/lacie id= link 2 lacie,

  # http://example.com/tillie id= link 3 蒂莉]

  找到id值为3的A标签

  soup.find(id=link3 ).

  # http://example.com/tillie id= link 3 蒂莉

  在上面的例子中,我们知道bs4库就是这样理解html源文件的。

  首先,将html源文件转换成soup类型。

  以特定的方式从那里获取内容

  有什么更高级的使用方法?

  找到文档到所有标签的链接了吗:#?find_all方法返回一个可重复列表。

  forlinkinsoup.find_all(a)):

  print(link . get)“href”))

  # http://example.com/elsie

  # http://example.com/lacie

  # http://example.com/tillie

  从文档:#中检索所有文本内容后,可以使用get_text方法快速检索源文件中的所有文本内容。

  print(soup.get_text))

  #睡鼠的故事

  #

  #睡鼠的故事

  #

  # onceuponatimetherewerethree little sisters;他们的名字是

  #埃尔西

  # Lacie和

  #蒂莉;

  #他们生活在底部.

  #

  # .

  bs4库的入门级使用先到此为止。

  以上是本文的全部内容,希望对大家的学习有所帮助。另外,希望大家能支持聚米学院。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: