RegEx匹配除XHTML自包含标记之外的开放标记

我需要匹配所有这些开头标记：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做得对。我只是在捕捉a-z。

<([a-z]+) *[^/]*?>

我相信上面写着：

找到一个小于，然后查找（并捕获）a-z一次或多次，然后找到零个或多个空格，然后查找任何字符零次或多次，贪婪，除了/，然后查找大于

我有这个权利吗？更重要的是，你怎么看？

当前回答

尽管为此目的使用正则表达式并不合适和有效，但有时正则表达式为简单的匹配问题提供了快速解决方案，在我看来，将正则表达式用于琐碎的工作并不可怕。

有一篇关于匹配StevenLevithan编写的最内部HTML元素的权威博客文章。

2010-02-09 03:59:27

其他回答

我建议在PHP中使用QueryPath解析XML和HTML。它的语法与jQuery基本相同，只是在服务器端。

2009-11-13 23:44:50

<?php
$selfClosing = explode(',', 'area,base,basefont,br,col,frame,hr,img,input,isindex,link,meta,param,embed');

$html = '
<p><a href="#">foo</a></p>
<hr/>
<br/>
<div>name</div>';

$dom = new DOMDocument();
$dom->loadHTML($html);
$els = $dom->getElementsByTagName('*');
foreach ( $els as $el ) {
    $nodeName = strtolower($el->nodeName);
    if ( !in_array( $nodeName, $selfClosing ) ) {
        var_dump( $nodeName );
    }
}

输出：

string(4) "html"
string(4) "body"
string(1) "p"
string(1) "a"
string(3) "div"

基本上，只需定义自关闭的元素节点名称，将整个html字符串加载到DOM库中，抓取所有元素，循环并过滤掉不自关闭的并对其进行操作。

我确信您现在已经知道不应该为此使用正则表达式。

2009-11-15 14:37:06

我认为这里的缺陷是HTML是Chomsky Type 2语法（上下文无关语法），正则表达式是ChomskyType 3语法（正则语法）。由于第2类语法从根本上比第3类语法更复杂（请参见乔姆斯基层次结构），因此不可能实现这一点。

但很多人会尝试，有些人甚至会声称成功，但直到其他人发现错误并将你彻底搞砸。

2009-11-18 18:42:40

如果您只是试图查找这些标记（没有解析的野心），请尝试以下正则表达式：

/<[^/]*?>/g

我在30秒内写下了它，并在这里进行了测试：http://gskinner.com/RegExr/

它匹配您提到的标记类型，而忽略您所说的要忽略的类型。

2012-06-01 05:13:26

RegEx匹配除XHTML自包含标记之外的开放标记跳过所有其他标记（和内容）。

这个正则表达式就是这样做的。如果您只需要匹配特定的Open标记，请列出一个列表替换（？：p | br |＜whatever tags you want＞）并替换[\w:]+构造在下面的适当位置。

https://regex101.com/r/uMvJn0/1

 # Mix html/xml     
 # https://regex101.com/r/uMvJn0/1     
 
 <
 (?:
    
    # Invisible content gets failed
    
    (?:
       (?:
                               # Invisible content; end tag req'd
          (                    # (1 start)
             script
           | style
           | object
           | embed
           | applet
           | noframes
           | noscript
           | noembed 
          )                    # (1 end)
          (?:
             \s+ 
             (?>
                " [\S\s]*? "
              | ' [\S\s]*? '
              | (?:
                   (?! /> )
                   [^>] 
                )?
             )+
          )?
          \s* >
       )
       
       [\S\s]*? </ \1 \s* 
       (?= > )
       (*SKIP)(*FAIL)
    )
    
  | 
    
    # This is any open html tag we will match
    
    (?:
       [\w:]+ \b 
       (?=
          (                    # (2 start)
             (?:
                " [\S\s]*? " 
              | ' [\S\s]*? ' 
              | [^>]? 
             )*
          )                    # (2 end)
          >
       )
       \2 
       (?<! / )
    )
    
  | 
    # All other tags get failed
    
    (?:
       (?: /? [\w:]+ \s* /? )
     | (?:
          [\w:]+ 
          \s+ 
          (?:
             " [\S\s]*? " 
           | ' [\S\s]*? ' 
           | [^>]? 
          )+
          \s* /?
       )
     | \? [\S\s]*? \?
     | (?:
          !
          (?:
             (?: DOCTYPE [\S\s]*? )
           | (?: \[CDATA\[ [\S\s]*? \]\] )
           | (?: -- [\S\s]*? -- )
           | (?: ATTLIST [\S\s]*? )
           | (?: ENTITY [\S\s]*? )
           | (?: ELEMENT [\S\s]*? )
          )
       )
    )
    (*SKIP)(*FAIL)
 )
 >

2020-10-01 18:55:20

RegEx匹配除XHTML自包含标记之外的开放标记

推荐文章

最新文章

标签