如何搜索多个pdf文件的内容?

如何在目录/子目录中搜索PDF文件的内容?我在找一些命令行工具。grep似乎不能搜索PDF文件。

当前回答

我也遇到了同样的问题，因此我写了一个脚本，搜索指定文件夹中的所有pdf文件的字符串，并打印匹配查询字符串的pdf文件。

也许这对你有帮助。

你可以在这里下载

其他回答

我喜欢@sjr的答案，但我更喜欢xargs vs -exec。我发现xargs更通用。例如，使用-P，我们可以在必要时利用多个cpu。

find . -name '*.pdf' | xargs -P 5 -I % pdftotext % - | grep --with-filename --label="{}" --color "pattern"

试着在一个简单的脚本中使用'acroread'，就像上面那样

如果你想用pdftotext查看文件名，使用以下命令:

find . -name '*.pdf' -exec echo {} \; -exec pdftotext {} - \; | grep "pattern\|pdf"

我的实际版本的pdfgrep(1.3.0)允许以下:

pdfgrep -HiR 'pattern' /path

当执行pdfgrep——help时:

H:打印每个匹配项的文件名。 i:忽略大小写区别。 R:递归搜索目录。

它在我的Ubuntu上运行得很好。

还有另一个实用程序叫做ripgrep-all，它是基于ripgrep的。

它不仅可以处理PDF文档，比如Office文档和电影，而且作者声称它比pdfgrep更快。

递归搜索当前目录的命令语法，第二个命令只限制PDF文件:

rga 'pattern' .
rga --type pdf 'pattern' .

推荐文章