python常用哪些库,常用的Python库
美丽的风景给你,美丽的风景给你。
BeautifulSoup库是一个用于分析、遍历和维护“标签树”的函数库。遍历意味着树中的每个节点沿着搜索路线只能被访问一次。33559 www.crummy.com/software/beautiful汤
BeautifulSoup库通常被称为bs4,从bs4导入BeautifulSoup用于导入这个库。Import BeautifulSoup主要使用bs4的BeautifulSoup类。
Bs4库解析器
BeautifulSoup类的基本元素
1个导入请求
2来自bs4进口美容组
三
4 RES=requests . get(http://www . pm caff.com/site/selection))
5soup=beautifulsoup(RES.text, lxml ).
6 print (soup.a))。
7#html语法中的所有标签都可以通过soup访问。如果HTML文档中有多个相同的对应内容,则汤。将返回第一个。
八
9打印(正经抽屉()))))))))。
10 #每个都有自己的名字。可通过获得。姓名。字符串类型
11
12印刷(soup.a.attrs))。
13print(soup.a.attrs[class]
每14 #可能有一个以上的属性,这是一个字典类型。
15
16 print (soup.a.string)。
在17 #中可以得到不是属性的字符串。字符串标签。
18
19 soup1=BeautifulSoup(
20印(汤1。p.string))。
21打印(类型。p.string))
22 #评论是一种特殊类型,也可以通过。字符串。
执行结果:
登录
A
{href : class : [无登录] } [无登录]
登录
以下是评论。
遍历bs4库的HTML内容
HTML的基本结构
标签树下的行遍历
其中BeautifulSoup类型是标记树的根节点。
1 #遍历子节点
2对于childinsoup.body.children:
3 print (child.name))。
四
5 #遍历后代节点
6 for childin soup . body . descendants:
7 Print (child.name))。
标签树的向上遍历
1 #遍历所有祖先节点时,因为包含soup本身,所以用if.else .来判断。
2 forparentinsoup.a.parents:
3如果父项为无:
4打印(零件)
5其他:
6 print (parent.name))。
执行结果:
差异
差异
身体
超文本标记语言
[文件]
标签树的平行路径
1 #遍历后续节点
2 forsiblinginsoup . a . next _ sibling:
3打印(签名)
四
5 #遍历前一个节点
6 forsiblinginsoup . a . previous _ sibling:
7打印(Print)。
bs4库的Prettify()方法
prettify))方法是一个标准的方法,可以用soup.prettify)表示代码格式。在PyCharm中,print(soup . pretify))用于输出。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。