如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

尝试简单HTML DOM解析器。

一个用PHP5+编写的HTMLDOM解析器，可以让您以非常简单的方式操作HTML！需要PHP 5+。支持无效的HTML。使用类似jQuery的选择器在HTML页面上查找标记。从HTML中提取单行内容。下载

注意：顾名思义，它可以用于简单的任务。它使用正则表达式而不是HTML解析器，因此对于更复杂的任务，速度会慢得多。它的大部分代码库是在2008年编写的，此后只做了一些小的改进。它不遵循现代PHP编码标准，将其纳入符合PSR的现代项目将是一个挑战。

示例：

如何获取HTML元素：

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

如何修改HTML元素：

// Create DOM from string
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html;

从HTML中提取内容：

// Dump contents (without tags) from HTML
echo file_get_html('http://www.google.com/')->plaintext;

刮削Slashdot：

// Create DOM from URL
$html = file_get_html('http://slashdot.org/');

// Find all article blocks
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

2010-08-26 17:18:25

其他回答

这听起来像是W3C XPath技术的一个很好的任务描述。很容易表达诸如“返回嵌套在＜foo＞＜bar＞＜baz＞元素中的img标记中的所有href属性”之类的查询。我不是一个PHP爱好者，无法告诉您XPath可能以什么形式可用。如果可以调用外部程序来处理HTML文件，则应该能够使用命令行版本的XPath。有关快速介绍，请参见http://en.wikipedia.org/wiki/XPath.

2011-04-14 19:08:11

为什么不应该以及何时应该使用正则表达式？

首先，一个常见的误称：Regexp不用于“解析”HTML。然而，正则表达式可以“提取”数据。提取是它们的目的。与适当的SGML工具包或基线XML解析器相比，正则表达式HTML提取的主要缺点是它们的语法工作和不同的可靠性。

考虑制作一个稍微可靠的HTML提取正则表达式：

<a\s+class="?playbutton\d?[^>]+id="(\d+)".+?    <a\s+class="[\w\s]*title
[\w\s]*"[^>]+href="(http://[^">]+)"[^>]*>([^<>]+)</a>.+?

比简单的phpQuery或QueryPath等效文件可读性差得多：

$div->find(".stationcool a")->attr("title");

然而，在某些特定的用例中，它们可以提供帮助。

许多DOM遍历前端不显示HTML注释<！--，然而，它们有时是用于提取的更有用的锚。特别是伪HTML变体＜$var＞或SGML残基很容易用正则表达式驯服。通常，正则表达式可以节省后期处理。然而，HTML实体通常需要手动管理。最后，对于提取<img src=urls等极其简单的任务，它们实际上是一个可能的工具。与SGML/XML解析器相比，速度优势主要用于这些非常基本的提取过程。

有时甚至建议使用正则表达式/<--内容-->（.+？）<--END-->/并使用更简单的HTML解析器前端处理其余部分。

注意：我实际上有一个应用程序，在那里我交替使用XML解析和正则表达式。就在上周，PyQuery解析中断，正则表达式仍然有效。是的，很奇怪，我自己也解释不了。但事情就是这样发生的。因此，请不要因为现实世界的考虑与正则表达式=邪恶模因不匹配就投票否决。但我们也不要对此投太多赞成票。这只是这个话题的一个旁注。

2010-09-06 09:40:53

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

XML_HTMLMax相当稳定——即使不再维护它。另一种选择是通过HtmlTidy将HTML导入，然后用标准的XML工具解析它。

2008-11-15 19:55:44

Symfony框架具有可以解析HTML的捆绑包，您可以使用CSS样式来选择DOM，而不是使用XPath。

2011-12-29 10:07:21

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签