正则表达式不属于任何语言本身,而是独立的用于处理字符串的强大工具,它有独立的语法和处理引擎,只要你熟悉其语法任何语言下都能使用(部分非常用语法可能在各种语言中的支持不一致)Python处理正则表达式主要用到re模块,本文主要介绍re模块的使用,正则表达式相关语法不作为本文重点
Python正则表达式常用语法解释
re是 regular expression 的缩写,即正则表达式.
通过re模块使用正则表达式主要有三个过程:
- 编译正则表达式得到Pattern对象
- 通过Pattern对象匹配文本得到Match对象
- 从Match对象中获取匹配信息
re.compile(pattern[, flag]):
re.compile的第一个参数指定正则表达式字符串,第二个参数可选,用于指定匹配模式:
re.I(IGNORECASE): 忽略大小写
re.M(MULTILINE): 多行模式
re.S(DOTALL): 点任意匹配模式
re.L(LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
re.U(UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
re.X(VERBOSE): 详细模式.这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释.
该方法返回一个Pattern对象,实际上它是Pattern类的 Factory Method
每个pattern匹配成功都会返回一个match对象的结果,通过它我们可以获取一次成功匹配的诸多信息
其常用的方法如下:
group([group1, …]): 返回匹配的一组或多组结果,没有则为None,其中参数group1…可以使用别名也可以使用编号,代表第n组结果,当编号为0时代表整个匹配的子串,若参数为多个则以元组形式返回,若不给参数则视为group(0)
groups([default]):返回所有组的匹配结果的元组,相当于group(1,2,3…),没有匹配到的组以default代替,默认None
groupdict([default]): 返回有别名的组的匹配结果的字典,其中别名为键,匹配子串为值
start([group]): 返回指定组的匹配子串在string中的起始索引,group默认值为0
end([group]): 返回指定组的匹配子串在string中的结束索引(最后一个字符的索引+1),group默认值为0
span([group]): 等价于(start(group), end(group))
#-*- coding:utf-8 -*-
import re
p = re.compile(r'My name is (\w+), I am (?P<age>\d+) years old , I come from (?P<city>\w+).')
m = p.match('My name is Felix, I am 10 years old , I come from Canton.')
print "group(0):", m.group(0)
print "group(1):", m.group(1)
print "groups():", m.groups()
print "groupdict():", m.groupdict()
print "start(1):", m.start(1)
print "end(1):", m.end(1)
print "span(1):", m.span(1)
##输出##
# group(0): My name is Felix, I am 10 years old , I come from Canton.
# group(1): Felix
# groups(): ('Felix', '10', 'Canton')
# groupdict(): {'city': 'Canton', 'age': '10'}
# start(1): 11
# end(1): 16
# span(1): (11, 16)
阅读全文 →