转载

正则表达式的零宽断言

我写文章的一个最基本的想法就是只写可以解决问题的部分，这样能很快的解决一个问题，而不探讨这项技术中的复杂的技术细节，这样有好处也有坏处。好处是我写的文章都简单明了，坏处是我写的东西不一定能解决你的问题。同样，写的文章也往往不能解决我自己将来遇到的问题。

自己之前写过：C#正则表达式的应用，但现在我又遇到了新的问题。

问题描述如下：我有一系列点号，如C120、C121、C122。首先我想判断这个点号是不是（字母开头，后面加数字）的形式。如果是，我想把字母提取出来。

第一个要求用前面的文章中的东西很容易就达到了，代码如下：

            string pattern = "/b[A-Za-z]+[0-9]+/b";             MatchmatResult = Regex.Match(selectedLines[0].Name, pattern);             if (!matResult.Success)                 //不成功说明不符合要求，do something                             else                 //成功，do something

但是现在的匹配结果是像C120这样的整个的符串，并达不到自己想提取前面C的要求。

要解决这个问题，就要用到 零宽断言 。零宽断言的意思是：匹配宽度为零，满足一定的条件/断言。用这个例子来说就是要求字母后面是数字，但不匹配（匹配宽度为零）后面的数字。

最常用的断言有两种，分别是 先行断言 和 后行断言。

先行断言的意思是匹配部分在前面，然后后面加断言。表达形式为(?=exp)。这个正好适用于现在这个情况。先给出表达式/b[a-zA-Z]+(?=[0-9]+/b)。在括号之前的就是C#正则表达式的应用中说明的内容，这里不再多说。括号里面就是 先行断言 。表示前面先是字母，后面以数字结尾，但不匹配数字。如果对C120使用这个表达式则匹配C

后行断言意思恰好和先行断言相反。类似于上面那个问题，如果我们想匹配C120中的120，则表达式为(?<=/b[a-zA-Z]+)[0-9]+/b。技术细节不再多说。

断言其实还有其他的种类，这里没有用到，暂时不多说。

原文 http://tson.com/regex-zerowidth/

正文到此结束