RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

这可能会：

<.*?[^/]>

或不带结束标记：

<[^/].*?[^/]>

HTML解析器上的火焰大战是怎么回事？HTML解析器必须解析（并重建！）整个文档，然后才能对搜索进行分类。在某些情况下，正则表达式可能更快/更优雅。我的2美分。。。

2010-04-23 06:38:31

其他回答

OP似乎没有说他需要用标签做什么。例如，他需要提取内部文本，还是只检查标签？

我坚定地认为正则表达式不是万能的文本解析器。我已经编写了大量的文本解析代码，包括用于解析HTML标记的代码。

虽然我确实对正则表达式不太在行，但我认为正则表达式太死板，很难维护这种解析。

2011-03-06 12:38:47

虽然不能用正则表达式解析HTML的答案是正确的，但它们在这里并不适用。OP只想用正则表达式解析一个HTML标记，这可以用正则表达式完成。

不过，建议的正则表达式是错误的：

<([a-z]+) *[^/]*?>

如果你在正则表达式中添加了一些东西，通过回溯，它可能会被强制匹配像＜a＞＞这样的愚蠢的东西，[^/]太宽容了。还要注意，<space>*[^/]*是冗余的，因为[^/]*也可以匹配空格。

我的建议是

<([a-z]+)[^>]*(?<!/)>

其中（？<！…）是（在Perl正则表达式中）后面的否定外观。它的意思是“a<，然后是一个单词，然后是任何不是a>的东西，最后一个可能不是a/，后面是>”。

请注意，这允许使用＜a/＞（就像原始的正则表达式一样），因此如果您需要更严格的限制，则需要构建正则表达式以匹配由空格分隔的属性对。

2010-01-27 12:54:35

您希望第一个>前面不带/。请查看此处了解如何执行此操作的详细信息。这被称为消极的后顾。

然而，在这个示例文档中，这一天真的实现最终将与<bar/></foo>匹配

<foo><bar/></foo>

你能提供更多关于你试图解决的问题的信息吗？您是否以编程方式遍历标签？

2009-11-13 22:47:17

我认为这里的缺陷是HTML是Chomsky Type 2语法（上下文无关语法），正则表达式是ChomskyType 3语法（正则语法）。由于第2类语法从根本上比第3类语法更复杂（请参见乔姆斯基层次结构），因此不可能实现这一点。

但很多人会尝试，有些人甚至会声称成功，但直到其他人发现错误并将你彻底搞砸。

2009-11-18 18:42:40

<?php
$selfClosing = explode(',', 'area,base,basefont,br,col,frame,hr,img,input,isindex,link,meta,param,embed');

$html = '
<p><a href="#">foo</a></p>
<hr/>
<br/>
<div>name</div>';

$dom = new DOMDocument();
$dom->loadHTML($html);
$els = $dom->getElementsByTagName('*');
foreach ( $els as $el ) {
    $nodeName = strtolower($el->nodeName);
    if ( !in_array( $nodeName, $selfClosing ) ) {
        var_dump( $nodeName );
    }
}

输出：

string(4) "html"
string(4) "body"
string(1) "p"
string(1) "a"
string(3) "div"

基本上，只需定义自关闭的元素节点名称，将整个html字符串加载到DOM库中，抓取所有元素，循环并过滤掉不自关闭的并对其进行操作。

我确信您现在已经知道不应该为此使用正则表达式。

2009-11-15 14:37:06

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签