在一个文件中找到不在另一个文件中的行的快速方法?

我有两个大文件(一组文件名)。每个文件大约有3万行。我试图找到一种快速的方法，在file1中查找不存在于file2中的行。

例如，如果这是file1:

line1
line2
line3

这是file2:

line1
line4
line5

那么我的结果/输出应该是:

line2
line3

如此:

Grep -v -f file2 file1

但是在我的大文件上使用时，它非常非常慢。

我怀疑有一个好方法来使用diff()，但输出应该只是行，没有别的，我似乎找不到一个开关。

谁能帮我找到一种快速的方法，使用bash和基本的Linux二进制文件来做到这一点?

编辑:为了跟进我自己的问题，这是我迄今为止发现的使用diff()的最好方法:

 diff file2 file1 | grep '^>' | sed 's/^>\ //'

肯定有更好的办法吧?

当前回答

comm命令(common的缩写)可能很有用，可以逐行比较两个排序好的文件

#find lines only in file1
comm -23 file1 file2 

#find lines only in file2
comm -13 file1 file2 

#find lines common to both files
comm -12 file1 file2

man文件实际上是相当可读的。

2014-10-28 21:46:19

其他回答

我通常使用——suppress-common-lines标志来做到这一点，但请注意，这只在您以并排格式执行时才有效。

Diff -y——suppress-common-lines file1.txt file2.txt

2018-03-13 16:22:19

你可以使用Python:

python -c '
lines_to_remove = set()
with open("file2", "r") as f:
    for line in f.readlines():
        lines_to_remove.add(line.strip())

with open("f1", "r") as f:
    for line in f.readlines():
        if line.strip() not in lines_to_remove:
            print(line.strip())
'

2017-08-10 07:24:44

就像konsolebox建议的，海报grep解决方案

grep -v -f file2 file1

实际上，如果你简单地添加-F选项，就会工作得更好(更快)，将模式视为固定的字符串而不是正则表达式。我在一对~1000行文件列表上验证了这一点，我必须进行比较。当将grep输出重定向到wc -l时，使用-F需要0.031秒(实数)，而不使用-F需要2.278秒(实数)。

这些测试还包括-x开关，这是解决方案中必要的一部分，以便在file2包含的行与file1中的一行或多行部分匹配(而不是全部)的情况下确保完全准确。

因此，不需要对输入进行排序，快速，灵活(区分大小写等)的解决方案是:

grep -F -x -v -f file2 file1

这并不适用于所有版本的grep，例如，它在macOS中失败，其中文件1中的一行将显示为不存在于文件2中，即使它匹配的另一行是它的子字符串。或者，您可以在macOS上安装GNU grep以使用此解决方案。

2016-07-05 16:35:22

如果你缺少“花哨的工具”，例如在一些最小的Linux发行版中，有一个解决方案，只需cat, sort和uniq:

cat includes.txt excludes.txt excludes.txt | sort | uniq --unique

测试:

seq 1 1 7 | sort --random-sort > includes.txt
seq 3 1 9 | sort --random-sort > excludes.txt
cat includes.txt excludes.txt excludes.txt | sort | uniq --unique

# Output:
1
2

与grep相比，这也相对较快。

2018-11-22 08:08:48

comm命令(common的缩写)可能很有用，可以逐行比较两个排序好的文件

#find lines only in file1
comm -23 file1 file2 

#find lines only in file2
comm -13 file1 file2 

#find lines common to both files
comm -12 file1 file2

man文件实际上是相当可读的。

2014-10-28 21:46:19

在一个文件中找到不在另一个文件中的行的快速方法?

推荐文章

最新文章

标签