我厌倦了总是试图猜测,如果我应该转义特殊字符,如'()[]{}|'等使用regexp的许多实现时。

它与Python、sed、grep、awk、Perl、rename、Apache、find等不同。 有没有什么规则集告诉我什么时候应该转义,什么时候不应该转义特殊字符?它是否依赖于regexp类型,如PCRE、POSIX或扩展的regexp ?


当前回答

POSIX识别正则表达式的多种变体——基本正则表达式(BRE)和扩展正则表达式(ERE)。即使这样,由于POSIX标准化的实用程序的历史实现,也存在一些怪癖。

对于何时使用哪种符号,甚至给定命令使用哪种符号,并没有一个简单的规则。

看看Jeff Friedl的《精通正则表达式》这本书。

其他回答

哪些字符必须转义,哪些字符不能转义,实际上取决于您使用的正则表达式类型。

对于PCRE和大多数其他所谓的perl兼容版本,转义这些外部字符类:

.^$*+?()[{\|

这些内部字符类:

^-]\

对于POSIX扩展正则表达式(ERE),转义这些外部字符类(与PCRE相同):

.^$*+?()[{\|

转义任何其他字符是POSIX ERE的错误。

在字符类中,反斜杠是POSIX正则表达式中的一个文字字符。你不能用它来逃避任何事情。如果您希望将字符类元字符作为文字包含,则必须使用“巧妙的放置”。将^放在开头以外的任何地方,将]放在开头,将-放在字符类的开头或结尾,以字面上匹配这些字符,例如:

[]^-]

在POSIX基本正则表达式(BRE)中,您需要转义这些元字符以抑制其含义:

.^$*[\

BREs中的转义括号和花括号赋予了它们在EREs中未转义版本的特殊含义。一些实现(例如GNU)在转义时也会赋予其他字符特殊的含义,例如\?和+。转义除。^$*(){}以外的字符通常是BREs的错误。

在字符类内部,bre遵循与EREs相同的规则。

如果所有这些使您头晕目眩,请获取RegexBuddy的副本。在“创建”选项卡上,单击“插入令牌”,然后单击“文字”。RegexBuddy将根据需要添加转义。

使用Raku(以前称为Perl_6)

工作(反斜杠或引号除下划线以外的所有非字母数字字符):

~$ raku -e 'say $/ if "#.*?" ~~ m/  \# \. \* \?  /; #works fine'
「#.*?」

根据Damian Conway的演讲“你所知道的关于正则表达式的一切都是错误的”,正则表达式语言有六种风格。Raku代表了对标准Perl(5)/PCRE正则表达式的重大(大约15年)重做。

在这15年中,Perl_6 / Raku语言专家决定,所有非字母数字字符(下划线除外)都应保留为Regex元字符,即使目前不存在这种用法。要将非字母数字字符(下划线除外)表示为字面量、反斜杠或转义。

因此,上面的例子打印$/ match变量,如果匹配到文字#.*?找到字符序列。下面是如果你不这样做会发生什么:#被解释为注释的开始,。点被解释为任何字符(包括空格),*星号被解释为零或多个量词,而?问号被解释为0或1量词或节俭(即非贪婪)量词-修饰语(取决于上下文):

错误:

~$ ~$ raku -e 'say $/ if "#.*?" ~~ m/  # . * ?  /; #ERROR!'
===SORRY!===
Regex not terminated.
at -e:1
------> y $/ if "#.*?" ~~ m/ # . * ?  /; #ERROR!⏏<EOL>
Regex not terminated.
at -e:1
------> y $/ if "#.*?" ~~ m/ # . * ?  /; #ERROR!⏏<EOL>
Couldn't find terminator / (corresponding / was at line 1)
at -e:1
------> y $/ if "#.*?" ~~ m/ # . * ?  /; #ERROR!⏏<EOL>
    expecting any of:
        /

https://docs.raku.org/language/regexes https://raku.org/

对于PHP,“在非字母数字前面加上“\”以指定它代表自身总是安全的。”——http://php.net/manual/en/regexp.reference.escape.php。

除非是"或者'。:/

要转义PHP中的正则模式变量(或部分变量),请使用preg_quote()

不幸的是,(和\(之类的东西的含义在Emacs样式的正则表达式和大多数其他样式之间交换。因此,如果你试图逃避这些,你可能会做与你想要的相反的事情。

所以你必须知道你想引用的是什么风格。

对于Ionic (Typescript),你必须用双斜杠来转义字符。 例如(这是为了匹配一些特殊字符):

"^(?=.*[\\]\\[!¡\'=ªº\\-\\_ç@#$%^&*(),;\\.?\":{}|<>\+\\/])"

注意这个]- _。/字符。它们必须被一分为二。如果不这样做,代码中就会出现类型错误。