python操作html文件,python bs4获取标签文本
美汤概述(简称bs4)。
一个Python库,可以从HTML或XML文件中提取数据。您可以使用您喜欢的转换器来导航、搜索和修改常规文档,从而节省时间。
所有的物体都可以分为四类。
标签:标签对象,例如
yoyoketang
这是标签中的可导航字符串。正文,比如,这里是我的微信微信官方账号:yoyoketagn
美丽的汤:整个html对象
评论:比如评论对象!-对于HTML5 -,这实际上是一个特殊的可导航字符串。
安装pip安装beautifulsoup4
1.从标签的名称中获取标签对象。如果有多个相同的标记名,将返回第一个soup.head。
2.获取标签soup.head.title.string的文本
3.tag.attrs可以打印所有属性并恢复为字典格式。获取其中一个属性,与操作字典相同,如tag.attrs[href]或tag[href]。因为通常有许多中间有间隔的类属性,所以类属性
4.查找元素,find_all查找满足所有请求的内容,返回一个list对象。
5.get_text))获取tag标签下的所有文本。
6.替换字符串中的特殊字符。
练习1
从bs4导入BeautifulSoup
htmldemo=
yoyoketang
这是我的微信微信官方账号。yoyoketang
拉菲德勒教程
电脑笔记本
Selenium文档
赶紧注意!
""
#html.parser是一个解析器。
soup=beautifulsoup(htmldemo, html.parser ).
获取#标签标题
Print (soup.head))。
获取#字符
Print (soup.head.title.string))。
Print (soup.a.attrs))。
print(soup.a.attrs[href]
print(soup.a[href]
#class search不能使用class直接搜索。class_=姐姐
s=soup.find_all(class_=sister ).
#第二次搜索
S2=s[0]。find_all(id=p ).
按#id搜索
m=soup.find_all(id=link3 )).
获取#标签下的所有文本。
t=soup.body.get_text(
练习2
从bs4导入BeautifulSoup
导入请求
导入操作系统
#请求获取所有图像URL和标题的图像地址
r=requests . get(http://699 pic.com/sousuo-218808-13-1.html))))).
soup=beautifulsoup(r.content, html.parser ).
images=soup . find _ all(class _= lazy )).
cur path=OS . path . dirname(OS . path . real path(_ _ file _ _))
对于图像中的我:
jpg_url=i[data-original]
title=i[title]
打印(jpg _ URL))
是打印(标题)
打印()。
#下载获取的图像,并将其下载到curpath,其名称为title.jpg。
withopen(Curpath(((标题)。jpg)、(wb))作为f:
f.write(requests.get ) jpg _ URL(。内容)).
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。