正则表达式简介
转自:http://www.cnblogs.com/dtdd/archive/2013/03/10/2952988.html
1,正则表达式简介
(1)什么是正则表达式:是使用某种模式去匹配一类字符串的公式,它主要用于字符串的校验,分割,查找及替换操作。
(2)正则表达式的作用:替换文本或者代码中的某些字符,编辑软件无法完成的查找和替换,可以使用正则表达式来完成几乎全部的文本查找和替换工作。
正则表达式的强大功能源于它可以指定抽象模式来校验许多不同的字符序列。可以这定3种基本的抽象模式:
1.可以出现的字符集 (如:字母,数字和下划线)
2.可选择行的集合 (如:“com”,“net”或“org”)
3.可重复的序列 (如:自少一个短时不多于8个字母字符)
(将这3种模式按照不同的方式结合,就可以校验用户输入的电子右键地址格式是否正确;校验用户输入的日期格式是否正确;校验用户输入的身份证号格式是否正确等等 )
2,正则表达是基础
(1)元字符:正则表达式由一些普通字符和一些元字符(metacharacters)共同组成,其中普通字符包括大小写的字母和数字,而元字符则具有特殊含义。
元字符是用来描述其前面的字符在匹配模式中出现的方式。元字符本身是单一的字符,但是不同或者相同的元字符组合起来可以构成大的元字符。表中介绍各元字符的含义
字符 含义
() 将不同的祖父串组成一组,也称为子模式
[ ] 定义字符集合
{} 指定重复次数
^ 在字符串的开始匹配或者表示不在某个字符集内
$ 在字符传结尾匹配
. 匹配换行符(\n)之外的任意字符
? 重复零次或者一次
* 重复零次或者多次
+ 重复一次或者多次
\ 转换字符
| 或者选择分支的标识
正则表达式的语法是严格区分大小写的。
(2)方括号表达式:可以用来定义一个字符集合,其含义是必须匹配该集合中的任意一个字符,定义方括号表达式的方式有一下两种:
1.把所有的字符都列出阿来。 例如:方括号表达式”[1234567890]“可以与任何数字字符匹配,但是只能匹配一个字符。
2.利用字符”—“来表示字符区间。 例如:方括号表达式”[0123456789abcdefABCDEF]“ 可以简写成方括号表达式”[0-9a-fA-F]“。
(通常情况下,字符”-“都只是一个普通字符,只有在表达范围时才被作为元字符来使用。如:方括号表达式[-a-z]的第一个字符”-“只代表一个普通字符,而第二个是一个元字符。
用来表示字母a到z的范围里)
常用的方括号表达式:
字符 含义
[a-z] 小写字母字符
[A-Z] 大写字母字符
[a-zA-Z] 大小写字母字符
[0-9] 数字字符
[0-9\+\-\*\\] 数字字符、加号、减号、乘号、除号
[\f\r\n\t] 空白字符
(3)定位符:方括号表达式只能用来匹配一个字符,如“Y8”、“B3”、“A6”等。这里就需要使用定位符“^”与“$”
定位符是用来描述字符串或单词的边界的,具体包括^("shift+6组合键")和$(美元符号)它们含义分别为在字符传的开始匹配和在结尾匹配。
灵活使用定位符和方括号可以完成功能不同的正则表达式。 如:“^[A-Z][0-9]$”可以用来校验由两个字符组成的字符串,并且该字符串要同时满足
以大小写字母字符开头,以数字结尾的条件。
元字符“^”如果出现在方括号表达式的里面,表示含义为否;如果出现在方括号外面,表示含义为字符串的开始。
(4)量词:也称为限定符,用来指定字符必须要出现的次数,也就是说在指定重复模式时要使用量词。 量词具体包括*、+、?、{n}、{n,}、{n,m}共6种使用见表所示:
字符 含义
* 重复任意次(包括零次)
+ 重复一次或多次
? 重复零次或一次
{n} 重复n次,其中n是个非负数
{n,} 重复至少n次,其中n是非负数
{n,m} 重复至少n到m次,其中m和n均为非负数并且m大于等n
使用量词可以指定在一次搜索中查找到一个表达式的次数,如:正则表达式“sung{1,2}”可以用来校验任何字符串“sung”和“sungsung”
量词“?”如果出现在方括号里面也一样代表一个普通字符。如:“[-0-9?]”可以用来校验任何一个数字或者一个普通字符"?"或者一个普通字符“-”。
(5)选择符:正则表达式中竖线“|”可以表示选择分支。如:正则表达式“aaa|bbb|ccc”可以用来校验字符串“aaa”,字符串“bbb”,或“ccc”。 使用选择与其他元字符结合可以完成更复杂的正则表达式 如:正则表达式“^[0-9]|[a-z]”可以用来校验数字或字母字符开头。