如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

对于1a和2：我将投票支持新的Symfony Componet类DOMCrawler（DOMCrawler）。此类允许类似于CSS选择器的查询。看看这个演示文稿，看看真实世界的例子：news-of-the-symfony2-world。

该组件设计为独立工作，可以在没有Symfony的情况下使用。

唯一的缺点是它只适用于PHP5.3或更高版本。

2010-09-06 09:19:20

其他回答

SimpleHtmlDom的第三方替代方案使用DOM而不是字符串解析：phpQuery、Zend_DOM、QueryPath和FluentDom。

2010-09-07 08:57:59

Symfony框架具有可以解析HTML的捆绑包，您可以使用CSS样式来选择DOM，而不是使用XPath。

2011-12-29 10:07:21

顺便说一下，这通常被称为屏幕刮擦。我为此使用的库是SimpleHTMLDomParser。

2010-08-26 17:20:17

我已经编写了一个通用XML解析器，可以轻松处理GB文件。它基于XMLReader，非常容易使用：

$source = new XmlExtractor("path/to/tag", "/path/to/file.xml");
foreach ($source as $tag) {
    echo $tag->field1;
    echo $tag->field2->subfield1;
}

下面是github repo:XmlExtractor

2013-05-12 01:23:11

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签