RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

下面是XML/XTML的PCRE正则表达式，它是根据简化的EBNF语法定义构建的：

/
(?(DEFINE)
(?<tag> (?&tagempty) | (?&tagopen) ((?&textnode) | (?&tag) | (?&comment))* (?&tagclose))
(?<tagunnested> (?&tagempty) | (?&tagopen) ((?&textnode) | (?&comment))* (?&tagclose))
(?<textnode> [^<>]+)
(?<comment> <!--([\s\S]*?)-->)
(?<tagopen> < (?&tagname) (?&attrlist)? (?&ws)* >)
(?<tagempty> < (?&tagname) (?&ws)* (?&attrlist)? (?&ws)* \/>)
(?<tagclose> <\/ (?&tagname) (?&ws)* >)
(?<attrlist> ((?&ws)+ (?&attr))+)
(?<attr> (?&attrunquoted) | (?&attrsinglequoted) | (?&attrdoublequoted) | (?&attrempty))
(?<attrempty> (?&attrname))
(?<attrunquoted> (?&attrname) (?&ws)* = (?&ws)* (?&attrunquotedvalue))
(?<attrsinglequoted> (?&attrname) (?&ws)* = (?&ws)* ' (?&attrsinglequotedvalue) ')
(?<attrdoublequoted> (?&attrname) (?&ws)* = (?&ws)* " (?&attrdoublequotedvalue) ")
(?<tagname> (?&alphabets) ((?&alphabets) | (?&digits))*)
(?<attrname>(?&alphabets)+((?&alphabets)|(?&digits)|[:-]) )
(?<attrunquotedvalue> [^\s"'=<>`]+)
(?<attrsinglequotedvalue> [^']+)
(?<attrdoublequotedvalue> [^"]+)
(?<alphabets> [a-zA-Z])
(?<digits> [0-9])
(?<ws> \s)
)
(?&tagopen)
/x

这说明了如何为上下文无关语法构建正则表达式。您可以通过将最后一行的匹配从（？&tagopen）更改为例如（？&tagunnested）来匹配定义的其他部分

真正的问题是：你应该这样做吗？

对于XML/XTML，共识是否定的！

感谢尼基奇提供了这个想法。

2020-06-04 02:20:16

其他回答

<\s*(\w+)[^/>]*>

各部分解释如下：

<：起始字符

\s*：标签名称前可能有空格（难看，但可能）。

（\w+）：标记可以包含字母和数字（h1）。嗯，w也与“_”匹配，但我想它不会伤害你。如果好奇，请改用（[a-zA-Z0-9]+）。

[^/>]*：除了>和/直到关闭>

>：关闭>

不相关的

对于那些低估了正则表达式的人来说，他们说正则表达式的功能和正则语言一样强大：

anbanban不是规则的，甚至不是上下文无关的，可以与^（a+）b\1b\1匹配$

反向引用FTW！

2012-05-10 13:53:54

免责声明：如果您有选择，请使用解析器。那是说。。。

这是我使用（！）匹配HTML标记的正则表达式：

<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>

它可能并不完美，但我通过大量HTML运行了这段代码。注意，它甚至会捕捉到一些奇怪的东西，比如出现在网络上的<a name=“badgenerator”“>。

我想，为了使其不匹配自包含的标签，您可能需要使用Kobi的负面外观：

<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?<!/\s*)>

或者如果没有，就合并。

对于下选民：这是从实际产品中工作的代码。我怀疑任何阅读此页面的人都会觉得在HTML上使用正则表达式是社会可以接受的。

注意：我应该注意，这个正则表达式在CDATA块、注释以及脚本和样式元素的存在下仍然会崩溃。好消息是，你可以去掉那些使用正则表达式的。。。

2009-11-15 06:37:18

我建议在PHP中使用QueryPath解析XML和HTML。它的语法与jQuery基本相同，只是在服务器端。

2009-11-13 23:44:50

如果您只需要标记名，那么应该可以通过正则表达式执行此操作。

<([a-zA-Z]+)(?:[^>]*[^/] *)?>

应该做你需要的事。但我认为“莫里茨”的解决方案已经很好了。我一开始没看到。

对于所有反对者：在某些情况下，使用正则表达式是有意义的，因为这可能是最简单、最快捷的解决方案。我同意一般情况下不应该用正则表达式解析HTML。

但是当你有一个HTML子集，你知道格式并且你只想提取一些值时，正则表达式可以是一个非常强大的工具。我这样做了数百次，几乎总是达到我想要的目的。

2010-11-24 10:11:39

Try:

<([^\s]+)(\s[^>]*?)?(?<!/)>

它与您的类似，但最后一个>不能在斜杠之后，也接受h1。

2009-11-13 22:50:48

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签