RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

<([a-z][^>\s]*)(?:\s+[^>]+)?>

此正则表达式将匹配由单个单词（例如＜p＞、＜a＞等）组成的开头标记，后跟零个或多个空格和任意数量的字符（除了＞或空白），然后是结束>字符。它还会将标记与属性匹配，并且不会将标记与包含a-z以外字符的名称匹配。然而，它仍然不会匹配自动关闭标签。

2022-12-27 11:39:21

其他回答

如果PHP需要此功能：

除非是正确格式化的XML，否则PHP DOM函数将无法正常工作。不管它们对人类其他人的用处有多大。

simplehtmldom很好，但我发现它有点bug，而且内存很重[会在大页面上崩溃。]

我从未使用过querypath，所以不能评论它的有用性。

另一个可以尝试的是我的DOMParser，它非常节省资源，我已经很高兴地使用了一段时间。简单易学，功能强大。

对于Python和Java，发布了类似的链接。

对于反对者，我只在XML解析器无法承受实际使用时才编写了我的课程。宗教上的反对投票只是阻止了有用的答案被发布——请把事情放在问题的角度之内。

2009-11-16 19:02:48

您希望第一个>前面不带/。请查看此处了解如何执行此操作的详细信息。这被称为消极的后顾。

然而，在这个示例文档中，这一天真的实现最终将与<bar/></foo>匹配

<foo><bar/></foo>

你能提供更多关于你试图解决的问题的信息吗？您是否以编程方式遍历标签？

2009-11-13 22:47:17

<?php
$selfClosing = explode(',', 'area,base,basefont,br,col,frame,hr,img,input,isindex,link,meta,param,embed');

$html = '
<p><a href="#">foo</a></p>
<hr/>
<br/>
<div>name</div>';

$dom = new DOMDocument();
$dom->loadHTML($html);
$els = $dom->getElementsByTagName('*');
foreach ( $els as $el ) {
    $nodeName = strtolower($el->nodeName);
    if ( !in_array( $nodeName, $selfClosing ) ) {
        var_dump( $nodeName );
    }
}

输出：

string(4) "html"
string(4) "body"
string(1) "p"
string(1) "a"
string(3) "div"

基本上，只需定义自关闭的元素节点名称，将整个html字符串加载到DOM库中，抓取所有元素，循环并过滤掉不自关闭的并对其进行操作。

我确信您现在已经知道不应该为此使用正则表达式。

2009-11-15 14:37:06

OP似乎没有说他需要用标签做什么。例如，他需要提取内部文本，还是只检查标签？

我坚定地认为正则表达式不是万能的文本解析器。我已经编写了大量的文本解析代码，包括用于解析HTML标记的代码。

虽然我确实对正则表达式不太在行，但我认为正则表达式太死板，很难维护这种解析。

2011-03-06 12:38:47

我想这可能有用

<[a-z][^<>]*(?:(?:[^/]\s*)|(?:\s*[^/]))>

这可以在这里进行测试。

根据W3学校。。。

XML命名规则

XML元素必须遵循以下命名规则：

名称可以包含字母、数字和其他字符名称不能以数字或标点字符开头名称不能以字母xml（或xml、xml等）开头名称不能包含空格可以使用任何名称，不保留任何单词。

我使用的模式将遵循这些规则。

2012-05-26 13:25:16

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签