如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

当前回答

Advanced Html Dom是一个简单的Html Dom替代品，它提供了相同的界面，但它是基于Dom的，这意味着不会出现任何相关的内存问题。

它还具有完整的CSS支持，包括jQuery扩展。

2014-12-18 04:29:07

其他回答

JSON和来自XML的数组分为三行：

$xml = simplexml_load_string($xml_string);
$json = json_encode($xml);
$array = json_decode($json,TRUE);

大大！

2013-10-15 21:35:10

我在这里没有提到的一种通用方法是通过Tidy运行HTML，它可以设置为输出保证有效的XHTML。然后可以在上面使用任何旧的XML库。

但对于您的具体问题，您应该看看这个项目：http://fivefilters.org/content-only/--这是Readability算法的一个修改版本，它旨在从页面中提取文本内容（而不是页眉和页脚）。

2011-05-01 02:04:38

您可以尝试使用类似HTMLTidy的东西来清理任何“损坏”的HTML，并将HTML转换为XHTML，然后可以使用XML解析器解析。

2008-11-15 22:24:15

我创建了一个名为HTML5DOMDocument的库，可以在https://github.com/ivopetkov/html5-dom-document-php

它还支持查询选择器，我认为这在您的情况下非常有用。下面是一些示例代码：

$dom = new IvoPetkov\HTML5DOMDocument();
$dom->loadHTML('<!DOCTYPE html><html><body><h1>Hello</h1><div class="content">This is some text</div></body></html>');
echo $dom->querySelector('h1')->innerHTML;

2017-12-21 08:38:33

我们以前已经为我们的需求创建了不少爬虫。最后，通常是简单的正则表达式做得最好。虽然上面列出的库对于创建它们的原因来说是很好的，但如果您知道自己在寻找什么，正则表达式是一种更安全的方法，因为您还可以处理无效的HTML/XTML结构，如果通过大多数解析器加载，则会失败。

2011-10-04 13:14:59

如何在PHP中解析和处理HTML/XML？

推荐文章

最新文章

标签