如何从PDF文件中提取文本?

我试图使用Python提取包含在这个PDF文件中的文本。

我正在使用PyPDF2包(版本1.27.2)，并有以下脚本:

import PyPDF2

with open("sample.pdf", "rb") as pdf_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    page = read_pdf.pages[0]
    page_content = page.extractText()
print(page_content)

当我运行代码时，我得到以下输出，这与PDF文档中包含的输出不同:

 ! " # $ % # $ % &% $ &' ( ) * % + , - % . / 0 1 ' * 2 3% 4
5
 ' % 1 $ # 2 6 % 3/ % 7 / ) ) / 8 % &) / 2 6 % 8 # 3" % 3" * % 31 3/ 9 # &)
%

如何提取PDF文档中的文本?

当前回答

Camelot似乎是在Python中从pdf中提取表的一个相当强大的解决方案。

乍一看，它似乎实现了几乎和CreekGeek建议的tabura -py包一样准确的提取，CreekGeek在可靠性方面已经超过了任何其他发布的解决方案，但它应该是更可配置的。此外，它有自己的精度指示器(results.parsing_report)，以及强大的调试功能。

Camelot和Tabula都将结果作为Pandas的dataframe提供，因此之后很容易调整表。

pip install camelot-py

(不要与卡梅洛特的包装混淆。)

import camelot

df_list = []
results = camelot.read_pdf("file.pdf", ...)
for table in results:
    print(table.parsing_report)
    df_list.append(results[0].df)

它还可以输出结果为CSV, JSON, HTML或Excel。

卡梅洛特的到来是以牺牲许多属地为代价的。

NB :由于我的输入非常复杂，有许多不同的表，我最终使用Camelot和Tabula，根据表，以达到最好的结果。

2021-02-01 16:56:54

其他回答

我在寻找一个简单的解决方案来使用python 3。X和窗口。textract似乎不支持，这是不幸的，但如果你正在寻找一个简单的解决方案的windows/python 3签出tika包，真的直接阅读pdf。

Tika-Python是绑定到Apache Tika™REST服务的Python，允许在Python社区中本地调用Tika。

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

注意，Tika是用Java编写的，因此需要安装Java运行时

2018-02-07 21:43:27

您可能希望使用经过时间验证的xPDF和派生工具来提取文本，因为pyPDF2在文本提取方面似乎仍然存在各种问题。

长的答案是，文本如何在PDF中编码有很多变化，它可能需要解码PDF字符串本身，然后可能需要与CMAP映射，然后可能需要分析单词和字母之间的距离等。

如果PDF被损坏(即显示正确的文本，但复制时产生垃圾)，并且您确实需要提取文本，那么您可能需要考虑将PDF转换为图像(使用ImageMagik)，然后使用Tesseract使用OCR从图像中获取文本。

2016-01-18 08:42:47

如果想要从表格中提取文本，我发现tabula很容易实现，准确且快速:

获取熊猫数据框架:

import tabula

df = tabula.read_pdf('your.pdf')

df

默认情况下，它忽略表之外的页面内容。到目前为止，我只在单页、单表文件上进行了测试，但是有一些kwarg可以容纳多页和/或多表。

安装通过:

pip install tabula-py
# or
conda install -c conda-forge tabula-py

在直接的文本提取方面，请参阅: https://stackoverflow.com/a/63190886/9249533

2020-09-21 02:12:52

你可以从这里下载tika-app-xxx.jar(最新)。

然后将这个.jar文件放在python脚本文件的同一文件夹中。

然后在脚本中插入如下代码:

import os
import os.path

tika_dir=os.path.join(os.path.dirname(__file__),'<tika-app-xxx>.jar')

def extract_pdf(source_pdf:str,target_txt:str):
    os.system('java -jar '+tika_dir+' -t {} > {}'.format(source_pdf,target_txt))

该方法的优点:

更少的依赖。单个.jar文件比python包更容易管理。

开始支持。位置source_pdf可以是任何类型文档的目录。(.doc， .html， .odt等)

最新的。tika-app.jar始终先于相关版本的tika python包发布。

稳定。它比PyPDF更加稳定和维护良好(由Apache提供支持)。

劣势:

一个无头小丑是必要的。

2018-08-09 05:27:09

Pdfplumber是一个更好的从pdf中读取和提取数据的库。它还提供了读取表数据的方法，在经历了大量这样的库之后，pdfplumber最适合我。

请注意，它最适合机器编写的pdf，而不是扫描的pdf。

import pdfplumber
with pdfplumber.open(r'D:\examplepdf.pdf') as pdf:
first_page = pdf.pages[0]
print(first_page.extract_text())

2021-10-19 14:04:35

如何从PDF文件中提取文本?

推荐文章

最新文章

标签