python中bs4是什么意思,python中bs4模块
美汤库俗称bs4库,支持Python3。这是一个非常好的写爬虫的第三方库。因为非常好用,很流畅。所以也叫“好喝的汤”。目前bs4库的最新版本是4.60。以下是本库最基本的用途,但详细内容请参考“官方文档”
安装bs4库
Python的优势在于,作为一种开源语言,很多开发者都在开发第三方库。这样,当我们的开发人员试图实现某个功能时,只要专注于实现某个特定的功能,其他的细节和基础部分都可以交给数据库。Bs4库是我们写爬虫的有力助手。
安装方法非常简单。使用pip工具在命令行上安装$ pip install beautifulsoup4。
接下来,我们来看看bs4库$ pip list是否已经成功安装。
bs4库已成功安装。
bs4库的简单使用
下面简单介绍一下bs4库的使用。
暂且不论如何从网上爬取网页,
假设需要爬的html如下:
下面的HTML代码被多次用作示例。这是《寒生梦游仙境》(以下简称寒生文档)的内容:
睡鼠的故事睡鼠的故事
从前,有三个小姐妹;他们的名字是
example.com/elsie街3358号,
example.com/lacie大街3358号
example.com/tillie街3358号,蒂莉;
他们住在井底。
让我们开始用bs4库分析这段html页面代码。导入bs4模块
从bs4导入BeautifulSoup
美味的汤
soup=beautifulsoup(html, html.parser ).
#输出结果
print(soup . pretty))
""
出局:
#
#
#
#睡鼠的故事
#
#
#
#
#
#睡鼠的故事
#
#
#
# onceuponatimetherewerethree little sisters;他们的名字是
#
#埃尔西
#
#,
#
#莱西
#
#还有
#
#蒂莉
#
#;他们住在井底。
#
#
# .
#
#
#
""
您可以看到bs4库将web文件转换成了soup类型。
实际上,bs4库是一个分析、遍历、维护和“标签树”功能的库。
简单地说,bs4库重新格式化html源代码,
易于操作的节点、标签、属性等。
以下是引用结构化数据的一些简单方法。
仔细看开头的html文件,找到#文档的标题。
汤.标题
#
睡鼠的故事#title的名称值
soup.title.name
# utitle
#字符串#title的字符串
汤.标题.字符串
#睡鼠的故事
#title的父节点的名称属性
soup.title.parent.name
#你的头
#在文档中找到的第一段
汤. p
#
睡鼠的故事
找到p的# class属性值
汤,汤
# utitle
找到了#a标记。
汤
# http://example.com/elsie id= link 1 埃尔希
#找到所有的A标签
soup.find_all(a).
# http://example.com/elsie id= link 1 埃尔西,
# http://example.com/lacie id= link 2 lacie,
# http://example.com/tillie id= link 3 蒂莉]
找到id值为3的A标签
soup.find(id=link3 ).
# http://example.com/tillie id= link 3 蒂莉
在上面的例子中,我们知道bs4库就是这样理解html源文件的。
首先,将html源文件转换成soup类型。
以特定的方式从那里获取内容
有什么更高级的使用方法?
找到文档到所有标签的链接了吗:#?find_all方法返回一个可重复列表。
forlinkinsoup.find_all(a)):
print(link . get)“href”))
# http://example.com/elsie
# http://example.com/lacie
# http://example.com/tillie
从文档:#中检索所有文本内容后,可以使用get_text方法快速检索源文件中的所有文本内容。
print(soup.get_text))
#睡鼠的故事
#
#睡鼠的故事
#
# onceuponatimetherewerethree little sisters;他们的名字是
#埃尔西
# Lacie和
#蒂莉;
#他们生活在底部.
#
# .
bs4库的入门级使用先到此为止。
以上是本文的全部内容,希望对大家的学习有所帮助。另外,希望大家能支持聚米学院。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。