如何从PDF文件中提取文本?

我试图使用Python提取包含在这个PDF文件中的文本。

我正在使用PyPDF2包(版本1.27.2)，并有以下脚本:

import PyPDF2

with open("sample.pdf", "rb") as pdf_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    page = read_pdf.pages[0]
    page_content = page.extractText()
print(page_content)

当我运行代码时，我得到以下输出，这与PDF文档中包含的输出不同:

 ! " # $ % # $ % &% $ &' ( ) * % + , - % . / 0 1 ' * 2 3% 4
5
 ' % 1 $ # 2 6 % 3/ % 7 / ) ) / 8 % &) / 2 6 % 8 # 3" % 3" * % 31 3/ 9 # &)
%

如何提取PDF文档中的文本?

当前回答

你可以使用PDFtoText https://github.com/jalan/pdftotext

PDF到文本保持文本格式缩进，不管你是否有表格。

2017-12-06 23:20:46

其他回答

我在寻找一个简单的解决方案来使用python 3。X和窗口。textract似乎不支持，这是不幸的，但如果你正在寻找一个简单的解决方案的windows/python 3签出tika包，真的直接阅读pdf。

Tika-Python是绑定到Apache Tika™REST服务的Python，允许在Python社区中本地调用Tika。

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

注意，Tika是用Java编写的，因此需要安装Java运行时

2018-02-07 21:43:27

看看PyPDF2<=1.26.0的代码:

import PyPDF2
pdf_file = open('sample.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content.encode('utf-8')

输出结果为:

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

使用相同的代码从201308FCR.pdf读取pdf .输出正常。

它的文档解释了原因:

def extractText(self):
    """
    Locate all text drawing commands, in the order they are provided in the
    content stream, and extract the text.  This works well for some PDF
    files, but poorly for others, depending on the generator used.  This will
    be refined in the future.  Do not rely on the order of text coming out of
    this function, as it will change if this function is made more
    sophisticated.
    :return: a unicode string object.
    """

2016-01-20 04:00:40

如何从PDF文件中提取文本?

首先要了解的是PDF格式。它有一个用英文编写的公共规范，请参阅ISO 32000-2:2017，并阅读超过700页的PDF 1.7规范。当然，你至少需要阅读维基百科关于PDF的页面

一旦你理解了PDF格式的细节，提取文本或多或少是容易的(但是出现在图形或图像中的文本呢?它的数字1)?不要指望在几周内单独编写一个完美的软件文本提取器....

在Linux上，你也可以使用pdf2text，你可以从你的Python代码中弹出。

一般来说，从PDF文件中提取文本是一个定义不清的问题。对于人类读者来说，一些文本可以由不同的点制成(图形)，或者一张照片等等。

谷歌搜索引擎能够从PDF中提取文本，但据传需要超过5亿行的源代码。你有必要的资源(人力和预算)来发展一个竞争对手吗?

一种可能是将PDF打印到一些虚拟打印机(例如使用GhostScript或Firefox)，然后使用OCR技术提取文本。

相反，我建议处理生成PDF文件的数据表示，例如原始的LaTeX代码(或Lout代码)或OOXML代码。

在所有情况下，您都需要为至少几个人年的软件开发预算。

2020-08-21 07:08:40

下面的代码是Python 3中该问题的解决方案。在运行代码之前，请确保已在您的环境中安装了PyPDF2库。如果未安装，打开命令提示符，执行以下命令:

pip3 install PyPDF2

使用PyPDF2 <= 1.26.0的解决方案代码:

import PyPDF2
pdfFileObject = open('sample.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
count = pdfReader.numPages
for i in range(count):
    page = pdfReader.getPage(i)
    print(page.extractText())

2018-05-23 13:38:45

从PDF中提取文本使用下面的代码

import PyPDF2
pdfFileObj = open('mypdf.pdf', 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

a = pageObj.extractText()

print(a)

2020-01-13 18:31:55

如何从PDF文件中提取文本?

推荐文章

最新文章

标签