如何从PDF文件中提取文本?

我试图使用Python提取包含在这个PDF文件中的文本。

我正在使用PyPDF2包(版本1.27.2)，并有以下脚本:

import PyPDF2

with open("sample.pdf", "rb") as pdf_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    page = read_pdf.pages[0]
    page_content = page.extractText()
print(page_content)

当我运行代码时，我得到以下输出，这与PDF文档中包含的输出不同:

 ! " # $ % # $ % &% $ &' ( ) * % + , - % . / 0 1 ' * 2 3% 4
5
 ' % 1 $ # 2 6 % 3/ % 7 / ) ) / 8 % &) / 2 6 % 8 # 3" % 3" * % 31 3/ 9 # &)
%

如何提取PDF文档中的文本?

当前回答

我在寻找一个简单的解决方案来使用python 3。X和窗口。textract似乎不支持，这是不幸的，但如果你正在寻找一个简单的解决方案的windows/python 3签出tika包，真的直接阅读pdf。

Tika-Python是绑定到Apache Tika™REST服务的Python，允许在Python社区中本地调用Tika。

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

注意，Tika是用Java编写的，因此需要安装Java运行时

2018-02-07 21:43:27

其他回答

从PDF中提取文本使用下面的代码

import PyPDF2
pdfFileObj = open('mypdf.pdf', 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

a = pageObj.extractText()

print(a)

2020-01-13 18:31:55

Pdfplumber是一个更好的从pdf中读取和提取数据的库。它还提供了读取表数据的方法，在经历了大量这样的库之后，pdfplumber最适合我。

请注意，它最适合机器编写的pdf，而不是扫描的pdf。

import pdfplumber
with pdfplumber.open(r'D:\examplepdf.pdf') as pdf:
first_page = pdf.pages[0]
print(first_page.extract_text())

2021-10-19 14:04:35

Pdftotext是最好和最简单的一个! Pdftotext也保留了结构。

我尝试了PyPDF2, PDFMiner和其他一些程序，但没有一个能给出令人满意的结果。

2019-04-03 12:16:08

使用pdfminer.six。这里是文档:https://pdfminersix.readthedocs.io/en/latest/index.html

将pdf转换为文本:

    def pdf_to_text():
        from pdfminer.high_level import extract_text

        text = extract_text('test.pdf')
        print(text)

2021-01-03 19:31:48

在尝试textract(似乎有太多依赖项)和pypdf2(无法从我测试的pdf中提取文本)和tika(太慢)后，我最终使用xpdf中的pdftotext(正如已经在另一个答案中建议的那样)，并直接从python中调用二进制(您可能需要调整路径到pdftotext):

import os, subprocess
SCRIPT_DIR = os.path.dirname(os.path.abspath(__file__))
args = ["/usr/local/bin/pdftotext",
        '-enc',
        'UTF-8',
        "{}/my-pdf.pdf".format(SCRIPT_DIR),
        '-']
res = subprocess.run(args, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
output = res.stdout.decode('utf-8')

有pdftotext，它基本上相同，但这假设pdftotext在/usr/local/bin中，而我在AWS lambda中使用这个，并希望从当前目录使用它。

顺便说一句:要在lambda上使用这个，你需要把二进制文件和依赖项放到libstdc++中。到函数中。我个人需要编译xpdf。由于这方面的说明会让这个答案变得更糟，我把它们放在了我的个人博客上。

2018-03-13 20:30:57

如何从PDF文件中提取文本?

推荐文章

最新文章

标签