python页面元素定位,python web自动化元素定位
本文主要介绍Python爬虫网页元素本地化。文章通过BeautifulSoup模块介绍了详细的内容,有一定的参考价值,有需要的朋友可以参考一下。
00-1010实战场景的基本用法如下:BeautifulSoup模块的对象描述;BeautifulSoup对象标签对象导航字符串对象注释对象find()方法和find_all()方法。
目录
刚开始学Python爬虫的时候,十有八九你采集的目标是网页,所以快速定位网页内容就成了我们面临的第一个障碍。本博客将为您详细讲解最简单易用的网页元素定位技术,学完之后您会学到一系列。
本文的核心是Beautiful Soup模块,所以我们用来测试采集的站点也是它的官网(目前爬虫采集越来越严格,很多站点已经采集不下去了,很容易被屏蔽,所以你只能采集你学的谁)。
官方站点:
www.crummy.com/software/BeautifulSoup/
它在Beautiful Soup.的Python crawler circle中很有名也很好用它是一个Python解析库,主要用来把HTML标签转换成Python对象树,然后让我们从对象树中提取数据。
模块的安装及其简单:
Pipbs4-I可以从任何国内来源安装。
以后安装任何模块,尽量使用国产源码,速度快且稳定。
这个模块包的名字是bs4,安装的时候要特别注意。
实战场景
导入请求
从bs4导入BeautifulSoup
def ret_html():
获取HTML元素
RES=requests . get( https://www . crummy.com/software/beautiful soup/,timeout=3)
返回资源文本
if __name__==__main__:
html_str=ret_html()
soup=BeautifulSoup(html_str, lxml )
印刷品(汤)
在实例化Soup对象时,应该注意模块的导入代码和在BeautifulSoup类的构造函数中传递的两个参数。一个是要解析的字符串,一个是解析器。官方推荐lxml,因为它的解析速度很快。
上面代码输出的内容如下,看起来就是一个普通的HTML代码文件。
而且我们可以调用soup对象的soup.prettify()方法,对HTML标签进行格式化,这样你在存储到外部文件的时候就可以把它的HTML代码做的很漂亮。
基础用法如下所示
beautiful Soup类可以将HTML文本解析成Python对象树,其中包含四个最重要的对象,分别是Tag、NavigableString、beautiful Soup和Comment对象。接下来我们就一一介绍。
BeautifulSoup 模块的对象说明
对象本身代表了整个h。
TML 页面,而且实例化该对象的时候,还会自动补齐 HTML 代码。
html_str = ret_html()soup = BeautifulSoup(html_str, lxml)
print(type(soup))
Tag 对象
Tag 是标签的意思,Tag 对象就是网页标签,或者叫做网页元素对象,例如获取 bs4 官网的 h1 标签对象,代码如下所示:
if __name__ == __main__:html_str = ret_html()
soup = BeautifulSoup(html_str, lxml)
# print(soup.prettify()) # 格式化 HTML
print(soup.h1)
得到的也是网页中的 h1 标签:
<h1>Beautiful Soup</h1>
用 Python 中的 type 函数,可以查看其类型,代码如下:
print(soup.h1)print(type(soup.h1))
此时得到的可不是一个字符串,而是一个 Tag 对象。
<h1>Beautiful Soup</h1><class bs4.element.Tag>
既然是 Tag 对象,那就会具备一些特定的属性值
获取标签名称
print(soup.h1)print(type(soup.h1))
print(soup.h1.name) # 获取标签名称
通过 Tag 对象获取标签的属性值
print(soup.img) # 获取网页第一个 img 标签print(soup.img[src]) # 获取网页元素DOM的属性值
通过 attrs 属性获取标签的所有属性
print(soup.img) # 获取网页第一个 img 标签print(soup.img.attrs) # 获取网页元素的所有属性值,以字典形式返回
以上代码的所有输出如下所示,可以任意选择标签进行练习。
<h1>Beautiful Soup</h1><class bs4.element.Tag>
h1
<img align="right" src="10.1.jpg" width="250"/>
{align: right, src: 10.1.jpg, width: 250}
NavigableString 对象
NavigableString 对象获取的是标签内部的文字内容,例如p
标签,在下述代码中提取的是我是橡皮擦
<p>我是橡皮擦</p>
获取该对象也非常容易,使用 Tag 对象的 string 属性即可。
nav_obj = soup.h1.stringprint(type(nav_obj))
输出结果如下所示:
<class 'bs4.element.NavigableString'>
如果目标标签是一个单标签,会获取到 None 数据
除了使用对象的string
方法外,还可以使用text
属性和get_text()
方法来获取标签内容
print(soup.h1.text)print(soup.p.get_text())
print(soup.p.get_text(&))
其中text
是获取所有子标签内容的合并字符串,而get_text()
也是相同的效果,不过使用get_text()
可以增加一个分隔符,例如上述代码的&
符号,还可以使用,strip=True 参数去除空格。
Comment 对象
BeautifulSoup 对象和 Tag 对象支持标签查找方法,具体内容如下所示。
find() 方法和 find_all() 方法
调用 BeautifulSoup 对象和 Tag 对象的find()
方法,可以在网页中找到指定对象,
该方法的语法格式如下:
obj.find(name,attrs,recursive,text,**kws)
方法的返回结果是查找到的第一个元素,如果没查询到,返回 None。 参数说明如下:
name
:标签名称;attrs
:标签属性;recursive
:默认搜索所有后代元素;text
:标签内容。
例如我们继续在上文请求的网页中,查找a
标签,代码如下:
html_str = ret_html()soup = BeautifulSoup(html_str, lxml)
print(soup.find(a))
也可以使用attrs
参数进行查找,代码如下:
html_str = ret_html()soup = BeautifulSoup(html_str, lxml)
# print(soup.find(a))
print(soup.find(attrs={class: cta}))
find()
方法还提供了一些特殊的参数,便于直接查找,例如可以使用id=xxx
,查找属性中包含id
的标签,可以使用class_=xxx
,查找属性中包含class
的标签。
print(soup.find(class_=cta))
与find()
方法成对出现的是find_all()
方法,看名称就能知道其返回结果收是全部匹配标签,语法格式如下:
obj.find_all(name,attrs,recursive,text,limit)
其中重点说明一下limit
参数,它表示最多返回的匹配数量,find()
方法可以看作limit=1
,这样就变得容易理解了。
到此这篇关于Python爬虫网页元素定位术的文章就介绍到这了,更多相关Python元素定位内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。