如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

使用FluidXML，您可以使用XPath和CSS选择器查询和迭代XML。

$doc = fluidxml('<html>...</html>');

$title = $doc->query('//head/title')[0]->nodeValue;

$doc->query('//body/p', 'div.active', '#bgId')
        ->each(function($i, $node) {
            // $node is a DOMNode.
            $tag   = $node->nodeName;
            $text  = $node->nodeValue;
            $class = $node->getAttribute('class');
        });

https://github.com/servo-php/fluidxml

2015-12-11 03:51:36

其他回答

只需使用DOMDocument->loadHTML（）就可以了。libxml的HTML解析算法非常好，速度也很快，与流行的观点相反，它不会对格式错误的HTML产生影响。

2008-11-26 20:02:44

不使用正则表达式解析HTML有几个原因。但是，如果您完全控制将生成什么HTML，那么可以使用简单的正则表达式。

上面是一个通过正则表达式解析HTML的函数。请注意，此函数非常敏感，要求HTML遵守某些规则，但它在许多场景中都非常有效。如果您想要一个简单的解析器，并且不想安装库，请尝试一下：

function array_combine_($keys, $values) {
    $result = array();
    foreach ($keys as $i => $k) {
        $result[$k][] = $values[$i];
    }
    array_walk($result, create_function('&$v', '$v = (count($v) == 1)? array_pop($v): $v;'));

    return $result;
}

function extract_data($str) {
    return (is_array($str))
        ? array_map('extract_data', $str)
        : ((!preg_match_all('#<([A-Za-z0-9_]*)[^>]*>(.*?)</\1>#s', $str, $matches))
            ? $str
            : array_map(('extract_data'), array_combine_($matches[1], $matches[2])));
}

print_r(extract_data(file_get_contents("http://www.google.com/")));

2013-12-05 13:05:10

我推荐PHP简单HTML DOM解析器。

它确实有很好的功能，比如：

foreach($html->find('img') as $element)
       echo $element->src . '<br>';

2012-11-06 21:02:09

JSON和来自XML的数组分为三行：

$xml = simplexml_load_string($xml_string);
$json = json_encode($xml);
$array = json_decode($json,TRUE);

大大！

2013-10-15 21:35:10

Symfony框架具有可以解析HTML的捆绑包，您可以使用CSS样式来选择DOM，而不是使用XPath。

2011-12-29 10:07:21

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签