是否有任何python模块转换PDF文件为文本?我尝试了在Activestate中发现的一段代码,它使用pypdf,但生成的文本之间没有空格,没有任何用处。
当前回答
此外,还有PDFTextStream,这是一个商业Java库,也可以从Python中使用。
其他回答
PDFMiner试试。它可以从PDF文件中提取HTML, SGML或“标记PDF”格式的文本。
带标记的PDF格式似乎是最干净的,去掉XML标记只留下纯文本。
Python 3版本如下:
https://github.com/pdfminer/pdfminer.six
此外,还有PDFTextStream,这是一个商业Java库,也可以从Python中使用。
PDFminer给了我也许一行[第1页7…在我尝试使用它的pdf文件的每一页上。
到目前为止,我有最好的答案是pdftopipe,或者是基于Xpdf的c++代码。
请参阅我的问题,了解pdftopipe的输出是什么样的。
Pdftotext一个开源程序(Xpdf的一部分),你可以从python调用它(不是你想要的,但可能有用)。我用过没有问题。我认为谷歌在谷歌桌面使用它。
今天找到了解决方案。对我来说很好。甚至将PDF页面转换为PNG图像。 http://www.swftools.org/gfx_tutorial.html