什么是正则表达式中的非捕获组？

如何在正则表达式中使用非捕获组，即（？：），它们有什么好处？

当前回答

tl；dr非捕获组，顾名思义，是正则表达式中不希望包含在匹配中的部分，以及？：是一种将组定义为非捕获的方法。

假设你有一个电子邮件地址example@example.com.以下正则表达式将创建两个组，id部分和@example.com部分。（\p｛Alpha｝*[a-z]）（@example.com）。为了简单起见，我们提取了包括@字符在内的整个域名。

现在让我们假设，您只需要地址的id部分。您要做的是获取匹配结果的第一个组，在正则表达式中用（）包围，这样做的方法是使用非捕获组语法，即？：。因此，正则表达式（\p｛Alpha｝*[a-z]）（？：@example.com）将只返回电子邮件的id部分。

其他回答

?: 当您想对表达式进行分组，但不想将其保存为字符串的匹配/捕获部分时，使用。

一个例子是匹配IP地址：

/(?:\d{1,3}\.){3}\d{1,3}/

请注意，我不在乎保存前3个八位字节，但（？：…）分组允许我缩短正则表达式，而不会导致捕获和存储匹配项的开销。

捕获的组可以稍后在正则表达式中使用以匹配，也可以在正则表达式的替换部分中使用它们。创建一个非捕获组只会使该组免于出于以下原因之一而被使用。

如果你试图捕捉很多不同的东西，而有些群体你不想捕捉，那么非捕捉群体是很好的。

这就是它们存在的原因。当你学习团体时，学习原子团体，他们做了很多！也有环视组，但它们有点复杂，而且使用得不多。

稍后在正则表达式中使用的示例（backreference）：

<（[A-Z][A-Z0-9]*）\b[^>]*>.*</\1> [查找xml标记（不支持ns）]

（[A-Z][A-Z0-9]*）是一个捕获组（在本例中是标记名）

稍后在正则表达式中是\ 1，这意味着它将仅与第一组（[A-Z][A-Z0-9]*）中的相同文本匹配（在本例中，它与结束标记匹配）。

我不能评论最上面的答案来这样说：我想补充一个明确的观点，这只是在最上面的回答中暗示的：

非捕获组（？…）不会从原始完全匹配中删除任何字符，它只会对程序员进行可视化的正则表达式重组。

要访问正则表达式的特定部分而不定义外来字符，您将始终需要使用.group（<index>）

让我举一个地理坐标的例子，下面是两组

Latitude,Longitude

([+-]?\d+(?:\.\d+)?),([+-]?\d+(?:\.\d+)?)

让我们拿一个（[+-]？\d+（？：\.\d+）？）

坐标可以是58这样的整数，也可以是58.666因此，可选的（.666）第二部分（\.\d+）？被提及。

(...)? - for optional

但这是加括号的，这将是另一组匹配。我们不需要两场比赛，一场58分，另一场666分，我们需要一个纬度作为比赛。这里是非捕获组（？：）

与非捕获组[+-]？\d+（？：\.\d+）？，58.666和58都是单场比赛

它非常简单，我们可以通过简单的日期示例来理解，假设日期被提到为2019年1月1日或2019年5月2日或任何其他日期，并且我们只想将其转换为dd/mm/yyyy格式，那么我们不需要月份的名称，即1月或2月，因此为了捕获数字部分，而不是（可选）后缀，您可以使用非捕获组。

所以正则表达式将是，

([0-9]+)(?:January|February)?

就这么简单。

推荐文章