RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

在我看来，你试图匹配结尾没有“/”的标签。试试看：

<([a-zA-Z][a-zA-Z0-9]*)[^>]*(?<!/)>

2009-11-15 17:13:19

其他回答

首先，回答一个直接的问题：正则表达式有一个bug，因为它会在任何地方排除带有斜线的标记，而不仅仅是在结尾。例如，它将排除这个有效的开头标记：<a href=“foo/bar.html”>，因为它在属性值中有一个斜杠。

我们可以解决这个问题，但更严重的是，这个正则表达式将导致误报，因为它还将匹配内部注释和cdata部分，其中相同的字符不表示有效的标记。例如：

<!-- <foo> -->

<![CDATA[ <foo> ]]>

尤其是嵌入脚本中的html字符串很可能会触发误报，JavaScript中经常使用<和>作为比较运算符也是如此。当然还有html的部分，这些部分用<！-->注释掉了。

因此，为了只匹配实际标记，您还需要能够跳过过去的注释和cdata部分。因此，您需要正则表达式来匹配注释和cdata，但只捕获开头标记。这仍然可以使用rexep，但它变得更加复杂，例如：

(  
    <!-- .*? --> # comment   
  | <!\[CDATA\[ .*? \]\]> # CData section
  | < \w+ ( "" [^""]* "" | ' [^']* ' | [^>/'""] )* /> # self-closing tag  
  | (?<tag> < \w+ ( "" [^""]* "" | ' [^']* ' | [^>/'""] )* > ) # opening tag - captured  
  | </ \w+ \s* > # end tag  
)

这仅适用于符合HTML兼容性准则的XHTML。如果您想处理任意XHTML，还应该处理处理指令和内部DTD，因为它们也可以嵌入误报。如果您还想处理HTML，还有其他复杂的问题，比如＜script＞-标记。如果您还想处理无效的HTML，则会变得更加复杂。

鉴于复杂性，我不建议走这条路。相反，寻找一个现成的（X）HTML解析库，它可以解决您的问题。

解析器通常在后台使用正则表达式（或类似的表达式）将文档拆分为“标记”（doctype、开始标记、结束标记、文本内容等）。但其他人会为您调试和测试这些正则表达式！根据解析器的类型，它可以通过匹配开始标记和结束标记来进一步构建元素的树结构。这几乎肯定会为您节省大量时间。

要使用的精确解析器库取决于您的语言和平台以及您正在解决的任务。如果您需要访问实际的标记子字符串（例如，如果您正在为HTML编写语法高亮），则需要使用SAX样式的解析器，该解析器直接公开语法标记。

如果您只执行标记匹配以手动构建元素的语法树，那么DOM解析器将为您完成这项工作。但是DOM解析器不公开底层的标记语法，因此无法解决您描述的确切问题。

您还应该考虑是否需要解析无效的HTML。这是一项复杂得多的任务，但在野生网络上，大多数HTML实际上是无效的。类似Pytons html5lib的东西可以解析无效的HTML。

2021-05-10 07:50:00

我想这可能有用

<[a-z][^<>]*(?:(?:[^/]\s*)|(?:\s*[^/]))>

这可以在这里进行测试。

根据W3学校。。。

XML命名规则

XML元素必须遵循以下命名规则：

名称可以包含字母、数字和其他字符名称不能以数字或标点字符开头名称不能以字母xml（或xml、xml等）开头名称不能包含空格可以使用任何名称，不保留任何单词。

我使用的模式将遵循这些规则。

2012-05-26 13:25:16

的确，在编程时，在处理HTML时，最好使用专用解析器和API，而不是正则表达式，尤其是在准确性至关重要的情况下（例如，如果您的处理可能涉及安全问题）。然而，我并不认为XML风格的标记永远不应该用正则表达式来处理。在某些情况下，正则表达式是一个很好的工具，例如在文本编辑器中进行一次性编辑，修复损坏的XML文件，或者处理看起来像但不太像XML的文件格式。有一些问题需要注意，但它们并非不可逾越，甚至不一定相关。

像<（[^>“']|”[^“]*”|'[^']*'）*>这样的简单正则表达式通常足够好，例如我刚才提到的那些情况。这是一个天真的解决方案，但它确实允许在属性值中使用未编码的>符号。如果您正在查找，例如，表标签，您可以将其调整为</？表\b（[^>“']|”[^“]*”|'[^']*'）*>。

为了了解更“高级”的HTML正则表达式会是什么样子，以下内容在模拟真实世界的浏览器行为和HTML5解析算法方面做了相当出色的工作：

</?([A-Za-z][^\s>/]*)(?:=\s*(?:"[^"]*"|'[^']*'|[^\s>]+)|[^>])*(?:>|$)

以下内容与相当严格的XML标记定义相匹配（尽管它没有考虑XML名称中允许的全部Unicode字符集）：

<(?:([_:A-Z][-.:\w]*)(?:\s+[_:A-Z][-.:\w]*\s*=\s*(?:"[^"]*"|'[^']*'))*\s*/?|/([_:A-Z][-.:\w]*)\s*)>

当然，这些不考虑周围的上下文和一些边缘情况，但如果您真的想处理这些问题（例如，通过在另一个正则表达式的匹配项之间进行搜索），也可以处理这些问题。

在一天结束时，使用最适合该作业的工具，即使该工具恰好是正则表达式。

2012-05-28 23:27:06

如果您只是试图查找这些标记（没有解析的野心），请尝试以下正则表达式：

/<[^/]*?>/g

我在30秒内写下了它，并在这里进行了测试：http://gskinner.com/RegExr/

它匹配您提到的标记类型，而忽略您所说的要忽略的类型。

2012-06-01 05:13:26

无法使用正则表达式解析[X]HTML。因为正则表达式无法解析HTML。Regex不是一个可以用来正确解析HTML的工具。正如我之前多次在这里回答的HTML和正则表达式问题一样，正则表达式的使用不允许您使用HTML。正则表达式是一种不够复杂的工具，无法理解HTML所使用的构造。HTML不是一种正则语言，因此不能由正则表达式解析。Regex查询无法将HTML分解为有意义的部分。很多次，但我都不明白。即使是Perl使用的增强型不规则正则表达式，也无法完成解析HTML的任务。你永远不会让我崩溃。HTML是一种非常复杂的语言，它不能被正则表达式解析。甚至Jon Skeet也无法使用正则表达式解析HTML。每次你试图用正则表达式解析HTML时，这个邪恶的孩子都会痛哭流涕，而俄罗斯黑客则会在你的网络应用程序上进行攻击。用正则表达式解析HTML会将受污染的灵魂召唤到活人的领域。HTML和正则表达式就像爱情、婚姻和仪式性的杀婴。<center>无法保持它太晚了。正则表达式和HTML在同一概念空间中的合力会像水一样摧毁你的思想。如果你用正则表达式解析HTML，你就屈服于他们和他们的亵渎方式，这让我们所有人都要为一个名字无法在基本多语言平面中表达的人付出不人道的努力，他来了。HTML加正则表达式将使n当你观察时，你的心灵在恐惧的冲击中枯萎。基于x的HTML解析器是杀死StackOverflow的癌症，为时已晚，为时不晚，我们无法得救，因为一个chi͡ld的犯罪确保了regex将吞噬所有的活组织（除了它不能消耗的HTML，如前所预言的那样）亲爱的主，请帮助我们，任何人如何能在这场灾难中幸存下来，使用regex来解析HTML已经注定了人类将遭受永恒的可怕折磨使用正则表达式作为处理HTML的工具的安全漏洞在这个世界和c͒ͪo͛ͫ腐败实体（如SGML实体，但更腐败）的可怕领域之间建立了一个漏洞，这仅仅是对reg世界的一瞥用于HTML的ex解析器将他突然把一个程序员的意识带入了一个不断尖叫的世界，瘟疫般的slithy regex感染会我吞噬你的HTML解析器、应用程序和存在一直像Visual Basic一样，但更糟糕的是他来了，他来了就不来了对他来说s un̨hoğly radiańcé; destro҉ying all enli̍̈́س\836收紧，HTML标签lea͠ki̧n͘g fr ǫm̡yo͟我们的眼睛͢s̸̛l̕ik͏e liquid pain，re̸gular exp之歌压缩解析将退出用英语表达摩尔的声音来自sp的塔尔曼在这里我可以看到它，你可以看到它吗他终于揭穿了谎言人的全部都是LOS͖̩͇̗̪̏̈́T ALL I当他来的时候，他就失去了机会或渗透到我的脸上ᵒ天啊不不不O NΘ停止*̶͑̾̾ͫ͏̙̤g͛838̾ͫ;͇̫̑͆lot rȇͧ̌aͨl̘̝̙ͤ͂̾̆ZA̡͊͠LGΌISͮ;҉̛̯͈͕̹ͼ̱TO̶͇̺ͅƝȳ̳TH̘; Ë͖́̉\864 P͍̭O̚N̐Y̡Hͨ͊̽س̾̎801;̸̪̯E̾;̧̲̬͛ͪ̈́͘809;ͧ⁲̨̦̱̹̭̰C \877̙̝͖̏Oͮ͏7;͍M͊̒ͪ̚873; 876;Ỿ860;̲̖Ȇ∱̛̟͌S̨̥̫͎ͯ̿̔̀ͅ

您是否尝试过改用XML解析器？

主持人说明此帖子已锁定，以防止对其内容进行不当编辑。这篇文章看起来和它应该看起来完全一样——它的内容没有问题。请不要为我们的注意标记。

2009-11-13 23:04:30

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签