Lxml是xml和HTML的解析器,主要功能是解析和提取XML和HTML中的数据。本文重点介绍Python lxml库的简介及其基本用法。感兴趣的朋友可以和边肖一起看看。
:
目录
1.lxml库2简介。LXML 3的安装方法。基本用途
1.lxml库介绍
Lxml是xml和HTML的解析器,主要功能是解析和提取XML和HTML中的数据。Lx和regular一样也是用C语言实现的。它是一个高性能的python HTML和lxml解析器。它还可以使用XPath语法来定位特定的元素和节点信息。
HTML是一种超文本标记语言,主要用于显示数据。它的重点是数据的外观。
XML是一种可扩展标记语言,主要用于传输和存储数据,其重点是数据的内容。
2.安装lxml方法
方法1:
在cmd运行窗口中输入:pip install lxml。
方法二:
在Pycharm下载
文件-设置-项目-项目解释器-点击右上角的“”
第一步
第二步
第三步
方法三:
去这个网站下载:https://lxml.de/index.html
3.基本使用
我们可以用它来解析HTML代码,在解析HTML代码的时候,如果HTML代码不规范或者不完整,lxml parser会自动修复或者补全代码,从而提高效率。
示例1:
解析HTML代码块
#从html中提取数据
从lxml导入etree
text=' ' '
超文本标记语言
div class='clearfix '
div class='nav_com '
保险商实验所
Li class=' active ' a href='/' rel=' external no follow '推荐/a/li
Li class=' ' a href='/nav/Python ' rel=' external no follow ' Python/a/Li
Li class=' ' a href='/nav/Java ' rel=' external no follow ' Java/a/Li
Li class='' a href='/nav/web' rel='外部nofollow '前端/a/li
Li class=' ' a href='/nav/arch ' rel='外部nofollow '体系结构/a/li
Li class='' a href='/nav/db' rel='外部nofollow '数据库/a/li
Li class=' ' a href='/nav/5G ' rel=' external no follow ' 5G/a/Li
Li class=' ' a href='/nav/game ' rel=' external no follow '游戏开发/a/li
Li class=' ' a href='/nav/mobile ' rel='外部nofollow '移动开发/a/li
Li class=' ' a href='/nav/ops ' rel=' external no follow '操作和维护/a/li
/ul
/div
/div
/html
/html
'''
#将字符串解析成html文档
html=etree。HTML(文本)
#打印(html)
#将字符串序列化为html
result=etree.tostring(html)。解码(“utf-8”)
打印(结果)
示例2:
读取和解析html文件
#解析html文件
从lxml导入etree
#读取html文件
html=etree.parse('data.html ')
#序列化html内容
result=etree.tostring(html)。解码(“utf-8”)
打印(结果)
关于Python lxml库的简介和使用的基本说明,本文就到这里了。有关使用Python lxml库的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望大家以后能多多支持我们!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。