正则表达式学习(四)匹配单个字符


PS:在所有例子中正则表达式匹配结果包含在源文本中的【和】之间,有的例子会使用java来实现,如果是java本身正则表达式的用法,会在相应的地方说明。所有java例子都在JDK1.6.0_13下测试通过。

java测试代码:

/**
 * 根据正则表达式和要匹配的源文本,输出匹配结果
 * @param regex 正则表达式
 * @param sourceText 要匹配的源文本
 */
public static void matchAndPrint(String regex, String sourceText){
    Pattern pattern = Pattern.compile(regex);
    Matcher matcher = pattern.matcher(sourceText);
    while(matcher.find()){
        System.out.println(matcher.group());
    }
}

一、匹配纯文本

1、只有一个匹配结果

首先来看一个简单的正则表达式,today,虽然它本身是纯文本,但它是一个正则表达式。来看一个例子:

 

源文本:Yesterday is history,tomorrow is a mystery, but today is a gift.

正则表达式:today

结果:Yesterday is history,tomorrow is a mystery, but 【today】 is a gift.

分析:这里使用的正则表达式是纯文本,它匹配了源文本中的today。

调用matchAndPrint方法,输出结果是:

today

 

2、有多个匹配结果

源文本:Yesterday is history,tomorrow is a mystery, but today is a gift.

正则表达式:is

结果:Yesterday is history,tomorrow is a mystery, but 【today】 is a gift.

分析:在源文本中,有三个is,但输出了四个is,因为history中的is也会被匹配到。

调用matchAndPrint方法,输出结果是:

is

is

is

is

 

3、字母大小写问题

正则表达式是区分字母大小写的,但很多正则表达式的实现中也支持不区分大小写的匹配操作。在JavaScript中,使用i标志来执行一次不区分字母大小写的匹配。在java中,如果要不区分大小写,那么在编译正则表达式时,可以指定:

Patternpattern = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);

二、匹配任意字符

    前面见到的正则表达式都是静态的纯文本,它们根本体现不出正则表达式的威力。下面,来看看如何使用正则表达式来匹配不可预知的字符。

    在正则表达式中,特殊字符(或字符集合)用来给出要搜索的东西。.字符(英文状态句号)可以匹配任何一个单个字符。相当于DOS中的?字符和SQL中的_(下划线)字符。如:正则表达式c.t将匹配cat、cut、cot等等。下面来看一个例子。

文本:

orders1.txt

orders2.txt

sales1.txt

salesA.txt

orders3.txt

sales2.txt

sales.txt

正则表达式:sales.

结果:

orders1.txt

orders2.txt

【sales1】.txt

【salesA】.txt

orders3.txt

【sales2】.txt

【sales.】txt

分析:正则表达式sales.将把由字符串sales和另外一个字条构成的文件名找出来,从结果可以看出,.可以匹配字母、数字以及它本身。7个文件中有4个与这个模式匹配。

如果调用matchAndPrint方法,输出结果是:

sales1

salesA

sales2

sales.

 

三、匹配特殊字符

    .字符在正则表达式中有着特殊的含义。如果模式里需要一个.,就要想办法来告诉正则表达式你需要的是.字符本身而不是它在正则表达式中的特殊含义。为此,必须在.前面加上\字符来对它进行转义。\也是一个元字符(metacharacter,表示这个字符有特殊含义,而不是字符含义本身)。来看下面这个例子。

找出na或sa开头的文件,不管它后面跟的是一个什么数字。

文本:

sales.txt

na1.txt

na2.txt

sa1.txt

sanatxt.txt

正则表达式:.a..txt

结果:

【sal】es.txt

【na1】.txt

【na2】.txt

【sa1】.txt

【sanatxt】.txt

分析:这个正则把na1.txt、na2.txt、sa1.txt找出来了,但是还找到了2个意料之外的结果。因为.a..txt这个正则中的.字符将与任意一个字符匹配。要想匹配.字符本身,那么需要使用\转义。把正则修改成.a.\.txt,则能够满足我们的需求。

注意:如果使用java,那么.a.\.txt这个正则表达式应该写成.a.\\.txt,因为\在java语言中也是一个转义字符。

 

四、总结

    正则表达式通常简称为模式,它们其实是一些字符构成的字符串。这些字符可以是普通字符(纯文本)或元字符(有特殊含义的特殊字符)。这里介绍了如何使用普通字符和元字符去匹配单位字符。.可以匹配任何字符。\用来对字符进行转义。在正则表达式中,有特殊含义的字符序列总是以\字符开头。在下一篇文章中,将介绍如何匹配一组一组字符。