如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

我已经编写了一个通用XML解析器，可以轻松处理GB文件。它基于XMLReader，非常容易使用：

$source = new XmlExtractor("path/to/tag", "/path/to/file.xml");
foreach ($source as $tag) {
    echo $tag->field1;
    echo $tag->field2->subfield1;
}

下面是github repo:XmlExtractor

2013-05-12 01:23:11

其他回答

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

这听起来像是W3C XPath技术的一个很好的任务描述。很容易表达诸如“返回嵌套在＜foo＞＜bar＞＜baz＞元素中的img标记中的所有href属性”之类的查询。我不是一个PHP爱好者，无法告诉您XPath可能以什么形式可用。如果可以调用外部程序来处理HTML文件，则应该能够使用命令行版本的XPath。有关快速介绍，请参见http://en.wikipedia.org/wiki/XPath.

2011-04-14 19:08:11

简单HTML DOM是一个很棒的开源解析器：

simplehtmldom.sourceforge

它以面向对象的方式处理DOM元素，新的迭代包含了大量不兼容代码。还有一些很棒的函数，如JavaScript中的“find”函数，它将返回该标记名元素的所有实例。

我已经在许多工具中使用了这个，在许多不同类型的网页上测试了它，我认为它非常有用。

2008-11-15 22:16:00

不使用正则表达式解析HTML有几个原因。但是，如果您完全控制将生成什么HTML，那么可以使用简单的正则表达式。

上面是一个通过正则表达式解析HTML的函数。请注意，此函数非常敏感，要求HTML遵守某些规则，但它在许多场景中都非常有效。如果您想要一个简单的解析器，并且不想安装库，请尝试一下：

function array_combine_($keys, $values) {
    $result = array();
    foreach ($keys as $i => $k) {
        $result[$k][] = $values[$i];
    }
    array_walk($result, create_function('&$v', '$v = (count($v) == 1)? array_pop($v): $v;'));

    return $result;
}

function extract_data($str) {
    return (is_array($str))
        ? array_map('extract_data', $str)
        : ((!preg_match_all('#<([A-Za-z0-9_]*)[^>]*>(.*?)</\1>#s', $str, $matches))
            ? $str
            : array_map(('extract_data'), array_combine_($matches[1], $matches[2])));
}

print_r(extract_data(file_get_contents("http://www.google.com/")));

2013-12-05 13:05:10

Symfony框架具有可以解析HTML的捆绑包，您可以使用CSS样式来选择DOM，而不是使用XPath。

2011-12-29 10:07:21

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签