我有一个HTML(而不是XHTML)文档,可以在Firefox3和IE7中显示良好。它使用相当基本的CSS来设置样式,并在HTML中呈现良好的效果。

我现在正在寻找一种将其转换为PDF的方法。我尝试过:

DOMPDF:它在表格方面存在巨大问题。我分解了我的大型嵌套表,这有助于(之前它只消耗了128M的内存,然后就死了——这是我在php.ini中的内存限制),但它把表弄得一团糟,而且似乎没有图像。这些表格只是一些基本的东西,带有一些边框样式,可以在各个点添加一些线条;HTML2PDF和HTML2PS:实际上我在这方面运气更好。它呈现了一些图像(所有图像都是Google Chart URL),表格格式要好得多,但它似乎有一些复杂性问题,我还没有弄清楚,并且一直因未知的node_type()错误而死亡。不知道从这里去哪里;和Htmldoc:这在基本的HTML上似乎很好,但几乎不支持CSS,所以你必须用HTML做所有的事情(我没有意识到在Htmldoc领域还是2001年…),所以这对我来说是无用的。

我尝试了一个名为Html2Pdf Pilot的Windows应用程序,它确实做得很好,但我需要至少在Linux上运行,最好通过Web服务器上的PHP按需运行的应用程序。

我缺少什么,或者如何解决这个问题?


当前回答

看看wkhtmltopdf。它是开源的,基于webkit和免费。

我们在这里写了一个小教程。

编辑(2017):

如果今天要建造一些东西,我就不会再走那条路了。但会使用http://pdfkit.org/相反可能会剥离它所有的nodejs依赖项,以便在浏览器中运行。

其他回答

尝试获取最新的夜间dompdf构建-我使用的是一个旧版本,这是一个可怕的资源占用,并花费了很长时间来渲染我的pdf。在这里度过了一个夜晚。

只花了几秒钟就生成了PDF,而且它的渲染效果与PrinceXML/Docraptor一样好。自从我上次使用dompdf代码以来,他们似乎已经认真优化了它!

经过一些调查和一般的头发拉扯,解决方案似乎是HTML2PDF。DOMDF在表格、边框甚至是中等复杂的布局方面做得很糟糕,htmldoc看起来相当健壮,但几乎完全不了解CSS,我不想只为该程序而回到没有CSS的HTML布局。

HTML2PDF看起来是最有前途的,但我一直有一个关于node_type的空引用参数的奇怪错误。我终于找到了解决办法。基本上,PHP5.1.x在任何大小的字符串上都可以使用正则表达式替换(preg_replace_*)。PHP 5.2.1引入了一个名为pcre.backtrack_limit的PHP.ini配置指令。此配置参数的作用是限制匹配所需的字符串长度。我不知道为什么要这样做。默认值选择为100000。为什么值这么低?同样,不知道。

针对PHP 5.2.1提出了一个bug,该bug在近两年后仍然开放。

最可怕的是,当超过限制时,替换就会默默地失败。至少,如果一个错误被引发并记录下来,你会知道发生了什么,为什么,以及要修改什么来修复它。

所以我有一个70k的HTML文件要转换成PDF。它需要以下php.ini设置:

pcre.backtrack_limit=2000000;#可能比我需要的更多,但没关系内存限制=1024M;#是的,1千兆字节;和最大执行时间=600;#是的,10分钟。

现在精明的读者可能已经注意到我的HTML文件小于100k。我可以猜测为什么会遇到这个问题的唯一原因是,作为过程的一部分,html2pdf将转换为xhtml。也许这让我着迷了(尽管近50%的膨胀似乎很奇怪)。不管是什么情况,上述方法都奏效了。

现在,html2pdf是一个资源占用者。我的70k文件需要大约5分钟和至少500-600M的RAM才能创建一个35页的PDF文件。不幸的是,对于实时下载来说(到目前为止)还不够快,内存使用率使内存使用率达到1000比1(70k文件需要600M RAM)的量级,这是非常荒谬的。

不幸的是,这是我想出的最好的办法。

这个问题已经很老了,但还没有人提到CutyCapt,所以我会:)

可爱的卡通

CutyCapt是一个小型的跨平台命令行实用程序,用于捕获WebKit将网页呈现为各种矢量位图格式,包括SVG、PDF、PS、PNG、JPEG、TIFF、GIF和BMP

不是PHP,而是一个Java库,它执行以下操作:

Flying Saucer采用XML或XHTML并应用CSS 2.1兼容样式表,以便呈现为PDF

它可以通过system()或类似的调用从PHP中使用。尽管它要求输入的XML格式良好。

为什么不试试mPDF 2.0版?我用它来创建PDF文档。它工作得很好。

同时,mPDF版本为5.7,与HTML2PS/HTML2PDF相比,它得到了积极维护

但请记住,文档确实很难处理。例如,查看此页面:https://mpdf.github.io/.

使用这个库可以完成从html到pdf的非常基本的任务,但更复杂的任务需要一些时间阅读和“理解”文档。