RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

我想这可能有用

<[a-z][^<>]*(?:(?:[^/]\s*)|(?:\s*[^/]))>

这可以在这里进行测试。

根据W3学校。。。

XML命名规则

XML元素必须遵循以下命名规则：

名称可以包含字母、数字和其他字符名称不能以数字或标点字符开头名称不能以字母xml（或xml、xml等）开头名称不能包含空格可以使用任何名称，不保留任何单词。

我使用的模式将遵循这些规则。

其他回答

中国古代军事家、将军和哲学家孙子说过：

据说，如果你了解你的敌人，了解你自己，你可以赢得百战百胜，而不会一败涂地。如果你只了解自己，而不了解对手，你可能会赢，也可能会输。如果你既不了解你自己也不了解你的敌人，你将永远危及自己。

在这种情况下，你的敌人是HTML，你要么是你自己，要么是正则表达式。您甚至可能是带有不规则正则表达式的Perl。了解HTML。了解自己。

我写了一首描述HTML本质的俳句。

HTML has
complexity exceeding
regular language.

我还写了一首俳句，描述Perl中正则表达式的性质。

The regex you seek
is defined within the phrase
<([a-zA-Z]+)(?:[^>]*[^/]*)?>

免责声明：如果您有选择，请使用解析器。那是说。。。

这是我使用（！）匹配HTML标记的正则表达式：

<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>

它可能并不完美，但我通过大量HTML运行了这段代码。注意，它甚至会捕捉到一些奇怪的东西，比如出现在网络上的<a name=“badgenerator”“>。

我想，为了使其不匹配自包含的标签，您可能需要使用Kobi的负面外观：

<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?<!/\s*)>

或者如果没有，就合并。

对于下选民：这是从实际产品中工作的代码。我怀疑任何阅读此页面的人都会觉得在HTML上使用正则表达式是社会可以接受的。

注意：我应该注意，这个正则表达式在CDATA块、注释以及脚本和样式元素的存在下仍然会崩溃。好消息是，你可以去掉那些使用正则表达式的。。。

我不知道你对此的确切需求，但如果你也在使用.NET，你就不能使用Html Agility Pack吗？

摘录：

它是一个.NET代码库，允许您可以解析“网页外”HTML文件夹。解析器非常宽容具有“真实世界”格式错误的HTML。

尽管为此目的使用正则表达式并不合适和有效，但有时正则表达式为简单的匹配问题提供了快速解决方案，在我看来，将正则表达式用于琐碎的工作并不可怕。

有一篇关于匹配StevenLevithan编写的最内部HTML元素的权威博客文章。

每当我需要从HTML文档中快速提取内容时，我都会使用Tidy将其转换为XML，然后使用XPath或XSLT来获取所需内容。在您的案例中，类似于：

//p/a[@href='foo']

推荐文章