十三、Python内置模块之 re库，介绍正则表达式初阶用法

　　13.1 re 库的应用

　　re 库是 Python 中处理正则表达式的标准库，本篇博客介绍 re 库的同时，会简单介绍一下正则表达式语法，如果想深入学习正则表达式，还需要好好下一番功夫。

　　13.1.1 正则表达式语法

　　正则表达式语法由字符和操作符构成，初期阶段掌握下述这些内容即可。

　　操作符说明例子

　　.任何单个字符，极少不能匹配

　　[]字符集，对单个字符给出取值范围[abc] 表示匹配 a、b、c，[a-z] 表示 a 到 z 单个字符

　　[^]非字符集，对单个字符给出排除范围[^abc] 表示匹配非 a、非 b、非 c 的单个字符

　　*前一个字符 0 次或无限次扩展abc* 表示 ab、abc、abcc、abccc 等

　　+前一个字符 1 次或无限次扩展abc+ 表示 abc、abcc、abccc 等

　　?前一个字符 0 次或 1 次abc? 表示 ab、abc

　　|左右表达式任意一个abc|def 表示 abc 或者 def

　　{m}扩展前 1 个字符 m 次ab{2}c，表示 abbc

　　{m,n}扩展前 1 个字符 m 到 n 次ab{1,2}c，表示 abc、abbc

　　^匹配字符串开头^abc 表示 abc 在字符串开头

　　$匹配字符串结尾abc$ 表示 abc 在字符串结尾

　　()分组标记，内部仅能使用 | 操作符(abc) 表示 abc，(a

　　\d数字，等价于 [0-9]

　　\w字符，等价于 [A-Za-z0-9]

　　以上表示仅仅为正则表达最基础部分内容，如果希望深入研究正则表达式，建议寻找更加全面的资料进行学习，本文只做药引。

　　13.1.2 re 库基本用法

　　re 库主要函数如下：

　　基础函数：compile;

　　功能函数：search、match、findall、split、finditer、sub。

　　在正式学习之前，先了解一下原生字符串。

　　在 Python 中，表示原生字符串，需要在字符串前面加上 r。

　　例如 my_str = 'i'am xiangpica' 在程序中会直接报错，如果希望字符串中 ' 可以正常运行，需要加上转移字符 \，修改为 my_str = 'i\'am xiangpica'。

　　但这样结合上文正则表达式中的操作符，就会出现问题，因为 \ 在正则表达式中是有真实含义的，如果你使用 re 库去匹配字符串中的 \，那需要使用 4 个反斜杠，为了避免这种情况出现，引入了原生字符串概念。

　　# 不使用原生字符串的正则表达式 "\\\\"

　　# 使用原生字符串的正则表达式 r"\\"

　　在后文会有实际的应用。

　　接下来在学习一个案例，例如下述代码：

　　my_str='C:\number'

　　print(my_str)

　　C:

　　umber

　　本段代码的输出效果如下，\n 被解析成了换行，如果想要屏蔽这种现象，使用 r 即可：

　　my_str=r'C:\number'

　　print(my_str)

　　输出 C:\number。

　　13.2 re 库相关函数说明

　　13.2.1 re.search 函数

　　该函数用于，在字符串中搜索正则表达式匹配到的第一个位置的值，返回 match 对象。

　　函数原型如下：

　　re.search(pattern,string,flags=0)

　　需求：在字符串梦想橡皮擦 good good 中匹配橡皮擦。

　　import re

　　my_str='梦想橡皮擦 good good'

　　pattern = r'橡皮擦'

　　ret = re.search(pattern,my_str)

　　print(ret)

　　返回结果：。

　　search 函数的第三个参数 flags 表示正则表达式使用时的控制标记。

　　re.I，re.IGNORECASE：忽略正则表达式的大小写;

　　re.M，re.MULTILINE：正则表达式中的 ^ 操作符能够将给定字符串的每行当做匹配的开始;

　　re.S，re.DOTALL：正则表达式中的 . 操作符能够匹配所有字符。

　　最后将匹配到的字符串进行输出，使用下述代码即可实现。

　　import re

　　my_str = '梦想橡皮擦 good good'

　　pattern = r'橡皮擦'

　　ret = re.search(pattern, my_str)

　　if ret:

　　print(ret.group(0))

　　13.2.2 re.match 函数

　　该函数用于在目标字符串开始位置去匹配正则表达式，返回 match 对象，未匹配成功返回 None，函数原型如下：

　　re.match(pattern,string,flags=0)

　　一定要注意是目标字符串开始位置。

　　import re

　　my_str = '梦想橡皮擦 good good'

　　pattern = r'梦' # 匹配到数据

　　pattern = r'good' # 匹配不到数据

　　ret = re.match(pattern, my_str)

　　if ret:

　　print(ret.group(0))

　　re.match 和 re.search 方法都是一次最多返回一个匹配对象，如果希望返回多个值，可以通过在 pattern 里加括号构造匹配组返回多个字符串。

　　13.2.3 re.findall 函数

　　该函数用于搜索字符串，以列表格式返回全部匹配到的字符串，函数原型如下：

　　re.findall(pattern,string,flags=0)

　　测试代码如下：

　　import re

　　my_str = '梦想橡皮擦 good good'

　　pattern = r'good'

　　ret = re.findall(pattern, my_str)

　　print(ret)

　　13.2.4 re.split 函数

　　该函数将一个字符串按照正则表达式匹配结果进行分割，返回一个列表。

　　函数原型如下：

　　re.split(pattern, string, maxsplit=0, flags=0)

　　re.split 函数进行分割的时候，如果正则表达式匹配到的字符恰好在字符串开头或者结尾，返回分割后的字符串列表首尾都多了空格，需要手动去除，例如下述代码：

　　import re

　　my_str = '1梦想橡皮擦1good1good1'

　　pattern = r'\d'

　　ret = re.split(pattern, my_str)

　　print(ret)

　　运行结果：

　　['', '梦想橡皮擦', 'good', 'good', '']

　　切换为中间的内容，则能正确的分割字符串。

　　import re

　　my_str = '1梦想橡皮擦1good1good1'

　　pattern = r'good'

　　ret = re.split(pattern, my_str)

　　print(ret)

　　如果在 pattern 中捕获到括号，那括号中匹配到的结果也会在返回的列表中。

　　import re

　　my_str = '1梦想橡皮擦1good1good1'

　　pattern = r'(good)'

　　ret = re.split(pattern, my_str)

　　print(ret)

　　运行结果，你可以对比带括号和不带括号的区别进行学习：

　　['1梦想橡皮擦1', 'good', '1', 'good', '1']

　　maxsplit 参数表示最多进行分割次数，剩下的字符全部返回到列表的最后一个元素，例如设置匹配 1 次，得到的结果是 ['1梦想橡皮擦1', '1good1']。

　　13.2.5 re.finditer 函数

　　搜索字符串，并返回一个匹配结果的迭代器，每个迭代元素都是 match 对象。函数原型如下：

　　re.finditer(pattern,string,flags=0)

　　测试代码如下：

　　import re 大连妇科医院哪家好 https://yiyuan.120ask.com/dlfk/

　　my_str = '1梦想橡皮擦1good1good1'

　　pattern = r'good'

　　# ret = re.split(pattern, my_str,maxsplit=1)

　　ret =re.finditer(pattern, my_str)

　　print(ret)

　　13.2.6 re.sub 函数

　　在一个字符串中替换被正则表达式匹配到的字符串，返回替换后的字符串，函数原型如下：

　　re.sub(pattern,repl,string,count=0,flags=0)

　　其中 repl 参数是替换匹配字符串的字符串，count 参数是匹配的最大替换次数。

　　import re

　　my_str = '1梦想橡皮擦1good1good1'

　　pattern = r'good'

　　ret = re.sub(pattern, "nice", my_str)

　　print(ret)

　　运行之后，得到替换之后的字符串：

　　1梦想橡皮擦1nice1nice1

　　13.2.7 re 库其它函数

　　其它比较常见的函数有：re.fullmatch()，re.subn()，re.escape()，更多内容可以查阅官方文档，获取一手资料。

　　13.3 re 库的面向对象写法

　　上文都是函数式写法，re 库可以采用面向对象的写法，将正则表达式进行编译之后，多次操作。核心用到的函数是 re.compile。

　　该函数原型如下：

　　regex = re.compile(pattern,flags=0)

　　其中 pattern 是正则表达式字符串或者原生字符串。

　　测试代码如下：

　　import re

　　my_str = '1梦想橡皮擦1good1good1'

　　# 正则对象

　　regex = re.compile(pattern = r'good')

　　ret = regex.sub("nice", my_str)

　　print(ret)

　　上述代码将正则表达式编译为一个正则对象，后面在 regex.sub 函数中就不需要在写正则表达式了，使用时，只需要将编译好的 regex 对象替换所有的 re 对象，再去调用对应的方法。

　　13.4 re 库的 match 对象

　　使用 re 库匹配字符串之后，会返回 match 对象，该对象具备以下属性和方法。

　　13.4.1 match 对象的属性

　　.string：待匹配的文本;

　　.re：匹配时使用的 pattern 对象;

　　.pos：正则表达式搜索文本的开始位置;

　　.endpos：正则表达式搜索文本的结束位置。

　　测试代码如下：

　　import re

　　my_str = '1梦想橡皮擦1good1good1'

　　regex = re.compile(pattern = r'g\w+d')

　　ret = regex.search(my_str)

　　print(ret)

　　print(ret.string)

　　print(ret.re)

　　print(ret.pos)

　　print(ret.endpos)

　　结果输出：

　　1梦想橡皮擦1good1good1

　　re.compile('g\\w+d')

　　0

　　17

　　13.4.2 match 对象的方法

　　.group(0)：获取匹配后的字符串;

　　.start()：匹配字符串在原始字符串的开始位置;

　　.end()：匹配字符串在原始字符串的结尾位置;

　　.span()：返回(.start(),.end())

　　因为内容比较简单，具体代码不再展示。