如何在正则表达式中使用非捕获组,即(?:),它们有什么好处?
当前回答
捕获的组可以稍后在正则表达式中使用以匹配,也可以在正则表达式的替换部分中使用它们。创建一个非捕获组只会使该组免于出于以下原因之一而被使用。
如果你试图捕捉很多不同的东西,而有些群体你不想捕捉,那么非捕捉群体是很好的。
这就是它们存在的原因。当你学习团体时,学习原子团体,他们做了很多!也有环视组,但它们有点复杂,而且使用得不多。
稍后在正则表达式中使用的示例(backreference):
<([A-Z][A-Z0-9]*)\b[^>]*>.*</\1> [查找xml标记(不支持ns)]
([A-Z][A-Z0-9]*)是一个捕获组(在本例中是标记名)
稍后在正则表达式中是\ 1,这意味着它将仅与第一组([A-Z][A-Z0-9]*)中的相同文本匹配(在本例中,它与结束标记匹配)。
其他回答
它使组不捕获,这意味着该组匹配的子字符串将不包含在捕获列表中。ruby中的一个示例说明了区别:
"abc".match(/(.)(.)./).captures #=> ["a","b"]
"abc".match(/(?:.)(.)./).captures #=> ["b"]
为了补充本主题中的其他好答案,我想添加一个有趣的观察结果。
查找:您可以在非捕获组中包含捕获组。
问题详细信息:请查看下面匹配web URL的正则表达式:
var parse_url_regex = /^(?:([A-Za-z]+):)(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;
以下是我的输入url字符串:
var url = "http://www.ora.com:80/goodparts?q#fragment";
正则表达式中的第一个组(?:([A-Za-z]+):)是一个非捕获组,它匹配协议方案(http)和冒号(:)字符。继续,它变为http:。但当我运行以下代码时:
console.debug(parse_url_regex.exec(url));
我可以看到返回数组的第一个索引包含字符串http(请参阅屏幕截图)。
此时,我的想法是http和冒号:两者都不会在输出中报告,因为它们位于非捕获组中。如果第一个正则表达式组(?:([A-Za-z]+):)是非捕获组,那么为什么它在输出数组中返回http字符串?
解释:如果你注意到,([A-Za-z]+)是一个捕获组(开头没有?)。但这个捕获组本身位于一个非捕获组(?:([a-Za-z]+):)内,后面跟着一个:字符。这就是为什么文本http仍然被捕获,但冒号:字符落在非捕获组内(但在捕获组外),不会在输出数组中报告。
让我举个例子:
Regex代码:(?:animal)(?:=)(\w+)(,)\1\2
搜索字符串:
第1行-动物=猫、狗、猫、老虎、狗
第2行-动物=猫、猫、狗、狗、老虎
第3行-动物=狗、狗、猫、猫、老虎
(?:动物)-->未捕获组1
(?:=)-->未捕获组2
(\w+)-->捕获的组1
(,)-->捕获的组2
\1-->捕获组1的结果,即第1行是猫,第2行是猫、第3行是狗。
\2-->捕获组2的结果,即逗号(,)
因此,在这段代码中,通过给出“1”和“2”,我们在代码后面分别回忆或重复捕获的组1和组2的结果。
根据代码的顺序,(?:动物)应为第1组,(?=)应为2组,并继续。。
但通过给出?:我们使匹配组不被捕获(在匹配组中不计数,因此分组编号从第一个捕获的组开始,而不是未捕获的组),这样以后就不能在代码中调用匹配组(?:动物)结果的重复。
希望这能解释非捕获组的使用。
您可以使用捕获组来组织和分析表达式。非捕获组具有第一个好处,但没有第二个好处的开销。例如,您仍然可以说非捕获组是可选的。
假设你想匹配数字文本,但有些数字可以写成1、2、3、4,。。。如果要捕获数字部分,而不是(可选)后缀,则可以使用非捕获组。
([0-9]+)(?:st|nd|rd|th)?
这将匹配形式1、2、3…或形式1、第2、第3…的数字,。。。但它将只捕获数字部分。
我不能评论最上面的答案来这样说:我想补充一个明确的观点,这只是在最上面的回答中暗示的:
非捕获组(?…)不会从原始完全匹配中删除任何字符,它只会对程序员进行可视化的正则表达式重组。
要访问正则表达式的特定部分而不定义外来字符,您将始终需要使用.group(<index>)
推荐文章
- 如何从JavaScript中使用正则表达式的字符串中剥离所有标点符号?
- 正则表达式中的单词边界是什么?
- 如何将一个标题转换为jQuery的URL段塞?
- Javascript和regex:分割字符串并保留分隔符
- (grep)正则表达式匹配非ascii字符?
- 如何在保持原始字符串的同时对字符串执行Perl替换?
- 创建正则表达式匹配数组
- *的区别是什么?和。*正则表达式?
- 如何将“camelCase”转换为“Camel Case”?
- 在Java中使用正则表达式提取值
- Java中的正则表达式命名组
- 使用正则表达式搜索和替换Visual Studio代码
- 使用split("|")按管道符号拆分Java字符串
- 替换字符串中第一次出现的模式
- “\d”在正则表达式中是数字吗?