如何使用grep跨多行找到模式?

我想找到有“abc”和“efg”的文件，这两个字符串在该文件中的不同行。一个包含以下内容的文件:

blah blah..
blah blah..
blah abc blah
blah blah..
blah blah..
blah blah..
blah efg blah blah
blah blah..
blah blah..

应该匹配。

当前回答

如果您愿意使用上下文，这可以通过输入来实现

grep -A 500 abc test.txt | grep -B 500 efg

这将显示“abc”和“efg”之间的所有内容，只要它们之间的距离不超过500行。

其他回答

下面是一种连续使用两个grep的方法:

egrep -o 'abc|efg' $file | grep -A1 abc | grep efg | wc -l

返回0或正整数。

egrep -o(只显示匹配，技巧:同一行上的多个匹配会产生多行输出，就好像它们在不同的行上一样)

grep -A1 abc(打印abc及其后面的行) Grep efg | wc -l(在ABC之后的相同或后面的行中发现的efg行数为0-n，结果可用于'if") 如果需要模式匹配，可以将Grep更改为egrep等

使用ripgrep可以:

$ rg --multiline 'abc(\n|.)+?efg' test.txt
3:blah abc blah
4:blah abc blah
5:blah blah..
6:blah blah..
7:blah blah..
8:blah efg blah blah

或者其他咒语。

如果你愿意的话。作为换行符计算:

$ rg --multiline '(?s)abc.+?efg' test.txt
3:blah abc blah
4:blah abc blah
5:blah blah..
6:blah blah..
7:blah blah..
8:blah efg blah blah

或者等效于(?s)的是rg -multiline- multiline-dotall

为了回答最初的问题，它们必须在不同的行上:

$ rg——multiline 'abc.*[\n](\n|.)*efg' test.txt

如果你想让它“非贪婪”，这样你就不会用最后一个efg得到第一个abc(把它们分成成对):

$ rg——multiline 'abc.*[\n](\n|.)*?efg的用法

https://til.hashrocket.com/posts/9zneks2cbv-multiline-matches-with-ripgrep-rg

我用它从一个multi fasta文件中提取一个fasta序列，使用grep的-P选项:

grep -Pzo ">tig00000034[^>]+"  file.fasta > desired_sequence.fasta

基于perl的搜索 Z表示行以0字节结尾，而不是换行字符 O来捕获匹配的内容，因为grep返回整行(在本例中，因为您做了-z是整个文件)。

regexp的核心是[^>]，它翻译为“不大于符号”。

遗憾的是，你不能。来自grep文档:

grep搜索指定的输入FILEs(或标准输入，如果没有指定文件，或如果给出了一个连字符减号(-)作为文件名)，以查找包含与给定PATTERN匹配的行。

我在几天前发布了一个grep替代方案，它直接支持这一点，通过多行匹配或使用条件——希望它对搜索这里的人有用。下面是示例命令的样子:

多行:

sift -lm 'abc.*efg' testfile

条件:

sift -l 'abc' testfile --followed-by 'efg'

你也可以指定'efg'必须在一定的行数内跟在'abc'后面:

sift -l 'abc' testfile --followed-within 5:'efg'

你可以在sift-tool.org上找到更多信息。

推荐文章