为什么正则表达式如此有争议?

在探索正则表达式(也称为正则表达式)时，有许多人似乎将正则表达式视为圣杯。看起来如此复杂的东西——一定是任何问题的答案。他们倾向于认为每个问题都可以用正则表达式解决。

另一方面，也有很多人不惜一切代价试图避免正则表达式。他们试图找到一种绕过正则表达式的方法，并仅仅为了它而接受额外的编码，即使正则表达式将是一个更紧凑的解决方案。

为什么正则表达式被认为如此有争议?关于它们的工作原理是否存在广泛的误解?或者正则表达式通常比较慢是一种普遍的看法?

当前回答

问题是正则表达式潜在地非常强大，以至于可以使用它们做一些应该使用不同的东西来做的事情。

一个好的程序员应该知道在什么地方使用它们，在什么地方不使用。典型的例子是解析非常规语言(请参阅确定一种语言是否为常规语言)。

我认为如果一开始就限制自己使用真正的正则表达式(没有扩展)，就不会出错。一些扩展可以使您的工作更简单一些，但是如果您发现一些很难用真正的正则表达式来表达的东西，这很可能表明正则表达式不是正确的工具。

其他回答

在lex和yacc中用于编译器定义的正则表达式系统是很好的、非常有用和干净的。在这些系统中，表达式类型是根据其他表达式类型定义的。在perl和sed代码(等等)中常见的丑陋的畸形的不可读的行噪声巨型一行正则表达式是“有争议的”(垃圾)。

正则表达式对包括我自己在内的很多人来说都是一个严重的谜。这很有效，但就像看数学方程一样。我很高兴地告诉大家，有人终于在http://regexlib.com/上创建了各种正则表达式函数的统一位置。现在，如果微软只创建一个正则表达式类，它将自动完成许多常见的事情，如消除字母或过滤日期。

这是一个有趣的话题。许多regexp爱好者似乎混淆了公式的简洁性和效率。最重要的是，一个需要大量思考的regexp会给它的作者带来巨大的满足感，使它立即变得合法。

但是…当性能不是问题，并且需要快速处理文本输出时(例如在Perl中)，regexp非常方便。此外，虽然性能是一个问题，但人们可能不愿意尝试使用可能有bug或效率较低的自制算法来击败regexp库。

此外，还有许多原因导致regexp受到不公平的批评

regexp效率不高，因为构建顶部的regexp并不明显有些程序员“忘记”只编译一次要多次使用的regexp(就像Java中的静态模式) 有些程序员采用试错策略——regexp的效果更差!

几乎我认识的每个经常使用正则表达式的人(双关语)都有unix背景，他们使用的工具将正则视为一级编程结构，比如grep、sed、awk和Perl。由于使用正则表达式几乎没有语法开销，因此它们的效率会大大提高。

相比之下，使用正则作为外部库的语言的程序员往往不会考虑正则表达式可以带来什么。程序员的“时间成本”是如此之高，以至于a) REs从未出现在他们的培训中，b)他们不会从REs的角度“思考”，而是更喜欢使用更熟悉的模式。

我觉得"有争议"这个词不太合适。

但我见过无数的例子，人们会问“我需要什么正则表达式来做这样那样的字符串操作?”这是X-Y问题。

换句话说，他们从假设regex是他们需要的开始，但是他们最好使用split()，一个像perl的tr///那样的转换，其中字符被一个替换为另一个，或者只是一个index()。

推荐文章