菜鸟教程 python 正则表达式,python正则表达式知识点总结
正则表达式在搜索大型文本、电子邮件和文档时非常有用。正则表达式也被称为“用于字符串匹配的编程语言”。下面文章主要介绍Python知识点正则表达式语法的相关信息。有需要的可以参考一下。
00-1010什么是Python正则表达式以及如何使用正则表达式语法re库基本用法re.search函数re.match函数re.findall函数re.split函数re.finditer函数re.sub函数re库其他函数扩展知识总结
目录
学习Python正则表达式离不开re模块,所以这篇博客就用re模块来写。
Re库是Python中处理正则表达式的标准库。在这篇博客介绍re库的同时,还将简要介绍正则表达式语法。如果想深入学习正则表达式,还是需要努力的。
Python 正则表达式是什么
怎么用
正则表达式语法是由字符和运算符组成的,所以你可以在初级阶段掌握以下内容。
操作员描述示例。任何单个字符都很少与[]字符集匹配。给单个字符一个取值范围[abc]是指匹配A,B,C,[a-z]是指A到Z单个字符[]不是字符集,给单个字符一个排除范围[abc]是指匹配不是A,B,C的单个字符*前一个字符扩展0倍或无限abc*是指AB,abC,abcc,abcc等。前一个字符扩展一次或无限abc的意思是abc,abcc,abcc等。前面的字符是0倍还是1倍abc?要么abC def表示abC,要么def{m}将第一个字符m乘以ab{2}c,这表示abbc{m,n}将第一个字符m乘以ab{1,2}c,这表示abc,abbc^匹配字符串的开头abc表示abc在字符串的开头$匹配字符串的结尾abc$表示abc在字符串的结尾分组(),只有运算符(abc)可以在内部使用来表示abc,(a\d数字,相当于[0-9]\w字符,相当于[A-Za以上仅指
正则表达式语法
re的主要功能如下:
基本功能:编译;功能:搜索,匹配,查找所有,分裂,查找,订阅。在正式学习之前,先了解一下原生字符串。
在Python中是原生字符串的意思,前面需要加r,比如my_str=iam xiangpica 会直接报错程序。如果你想让字符串正常工作,你需要添加一个转移字。
符 \,修改为 my_str = 'i\'am xiangpica'。 但这样结合上文正则表达式中的操作符,就会出现问题,因为 \ 在正则表达式中是有真实含义的, 如果你使用 re 库去匹配字符串中的 \,那需要使用 4 个反斜杠,为了避免这种情况出现,引入了原生字符串概念。
# 不使用原生字符串的正则表达式 "\\\\"
# 使用原生字符串的正则表达式 r"\\"
在后文会有实际的应用。
接下来在学习一个案例,例如下述代码:
my_str=C:\numberprint(my_str)
C:umber
本段代码的输出效果如下,\n 被解析成了换行,如果想要屏蔽这种现象,使用 r 即可:
my_str=rC:\numberprint(my_str)
输出 C:\number。
re.search 函数
该函数用于,在字符串中搜索正则表达式匹配到的第一个位置的值,返回 match 对象。 函数原型如下:
re.search(pattern,string,flags=0)
需求:在字符串 梦想橡皮擦 good good 中匹配 橡皮擦。
import remy_str=梦想橡皮擦 good good
pattern = r橡皮擦
ret = re.search(pattern,my_str)
print(ret)
返回结果:<re.Match object; span=(2, 5), match='橡皮擦'>。
search 函数的第三个参数 flags 表示正则表达式使用时的控制标记。
- re.I,re.IGNORECASE:忽略正则表达式的大小写;
- re.M,re.MULTILINE:正则表达式中的 ^ 操作符能够将给定字符串的每行当做匹配的开始;
- re.S,re.DOTALL:正则表达式中的 . 操作符能够匹配所有字符。
最后将匹配到的字符串进行输出,使用下述代码即可实现。
import remy_str = 梦想橡皮擦 good good
pattern = r橡皮擦
ret = re.search(pattern, my_str)
if ret:
print(ret.group(0))
re.match 函数
该函数用于在目标字符串开始位置去匹配正则表达式,返回 match 对象,未匹配成功返回 None,函数原型如下:
re.match(pattern,string,flags=0)
一定要注意是目标字符串开始位置。
import remy_str = 梦想橡皮擦 good good
pattern = r梦 # 匹配到数据
pattern = rgood # 匹配不到数据
ret = re.match(pattern, my_str)
if ret:
print(ret.group(0))
re.match 和 re.search 方法都是一次最多返回一个匹配对象,如果希望返回多个值, 可以通过在 pattern 里加括号构造匹配组返回多个字符串。
re.findall 函数
该函数用于搜索字符串,以列表格式返回全部匹配到的字符串,函数原型如下:
re.findall(pattern,string,flags=0)
测试代码如下:
import remy_str = 梦想橡皮擦 good good
pattern = rgood
ret = re.findall(pattern, my_str)
print(ret)
re.split 函数
该函数将一个字符串按照正则表达式匹配结果进行分割,返回一个列表。 函数原型如下:
re.split(pattern, string, maxsplit=0, flags=0)
re.split 函数进行分割的时候,如果正则表达式匹配到的字符恰好在字符串开头或者结尾, 返回分割后的字符串列表首尾都多了空格,需要手动去除,例如下述代码:
import remy_str = 1梦想橡皮擦1good1good1
pattern = r\d
ret = re.split(pattern, my_str)
print(ret)
运行结果:
['', '梦想橡皮擦', 'good', 'good', '']
切换为中间的内容,则能正确的分割字符串。
import remy_str = 1梦想橡皮擦1good1good1
pattern = rgood
ret = re.split(pattern, my_str)
print(ret)
如果在 pattern 中捕获到括号,那括号中匹配到的结果也会在返回的列表中。
import remy_str = 1梦想橡皮擦1good1good1
pattern = r(good)
ret = re.split(pattern, my_str)
print(ret)
运行结果,你可以对比带括号和不带括号的区别进行学习:
['1梦想橡皮擦1', 'good', '1', 'good', '1']
maxsplit 参数表示最多进行分割次数, 剩下的字符全部返回到列表的最后一个元素, 例如设置匹配 1 次,得到的结果是 ['1梦想橡皮擦1', '1good1']。
re.finditer 函数
搜索字符串,并返回一个匹配结果的迭代器,每个迭代元素都是 match 对象。 函数原型如下:
re.finditer(pattern,string,flags=0)
测试代码如下:
import remy_str = 1梦想橡皮擦1good1good1
pattern = rgood
# ret = re.split(pattern, my_str,maxsplit=1)
ret =re.finditer(pattern, my_str)
print(ret)
re.sub 函数
在一个字符串中替换被正则表达式匹配到的字符串,返回替换后的字符串, 函数原型如下:
re.sub(pattern,repl,string,count=0,flags=0)
其中 repl 参数是替换匹配字符串的字符串,count 参数是匹配的最大替换次数。
import remy_str = 1梦想橡皮擦1good1good1
pattern = rgood
ret = re.sub(pattern, "nice", my_str)
print(ret)
运行之后,得到替换之后的字符串:
1梦想橡皮擦1nice1nice1
re 库其它函数
其它比较常见的函数有:re.fullmatch(),re.subn(),re.escape(), 更多内容可以查阅 官方文档,获取一手资料。
扩展知识
使用 re 库匹配字符串之后,会返回 match 对象,该对象具备以下属性和方法。
你可以顺着这条线继续学习下去。
总结
到此这篇关于Python知识点详解之正则表达式语法的文章就介绍到这了,更多相关Python正则表达式语法内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。