我有一个很大的文件a(由电子邮件组成),每封邮件一行。我还有另一个文件B,其中包含另一组邮件。
我将使用哪个命令从文件A中删除文件B中出现的所有地址。
因此,如果文件A包含:
A
B
C
文件B包含:
B
D
E
那么文件A应该剩下:
A
C
现在我知道这是一个可能经常被问到的问题,但我只在网上找到一个命令,它给我一个错误的分隔符。
任何帮助都将不胜感激!肯定有人会想出一个聪明的俏皮话,但我不是shell专家。
我有一个很大的文件a(由电子邮件组成),每封邮件一行。我还有另一个文件B,其中包含另一组邮件。
我将使用哪个命令从文件A中删除文件B中出现的所有地址。
因此,如果文件A包含:
A
B
C
文件B包含:
B
D
E
那么文件A应该剩下:
A
C
现在我知道这是一个可能经常被问到的问题,但我只在网上找到一个命令,它给我一个错误的分隔符。
任何帮助都将不胜感激!肯定有人会想出一个聪明的俏皮话,但我不是shell专家。
当前回答
为了给上面的用户添加Python回答,这里有一个更快的解决方案:
python -c '
lines_to_remove = None
with open("partial file") as f:
lines_to_remove = {line.rstrip() for line in f.readlines()}
remaining_lines = None
with open("full file") as f:
remaining_lines = {line.rstrip() for line in f.readlines()} - lines_to_remove
with open("output file", "w") as f:
for line in remaining_lines:
f.write(line + "\n")
'
提高集合减法的幂。
其他回答
如果文件已经排序(在你的例子中):
comm -23 file1 file2
-23抑制两个文件中的行,或仅在文件2中。如果文件没有排序,那么首先将它们通过sort管道…
点击这里查看手册页
另一种方法来做同样的事情(也需要排序输入):
join -v 1 fileA fileB
在Bash中,如果文件没有预先排序:
join -v 1 <(sort fileA) <(sort fileB)
删除出现在另一个文件上的行后获取该文件
comm -23 <(sort bigFile.txt) <(sort smallfile.txt) > diff.txt . com
为了给上面的用户添加Python回答,这里有一个更快的解决方案:
python -c '
lines_to_remove = None
with open("partial file") as f:
lines_to_remove = {line.rstrip() for line in f.readlines()}
remaining_lines = None
with open("full file") as f:
remaining_lines = {line.rstrip() for line in f.readlines()} - lines_to_remove
with open("output file", "w") as f:
for line in remaining_lines:
f.write(line + "\n")
'
提高集合减法的幂。
要删除两个文件之间的公共行,可以使用grep、comm或join命令。
Grep只适用于小文件。使用-v和-f。
grep -vf file2 file1
这将显示file1中与file2中任何行不匹配的行。
Comm是一个实用命令,用于按词法排序的文件。它 以两个文件作为输入,并产生三个文本列作为输出: 只在第一个文件中的行;只在第二个文件中的行;和线 在两个文件中。可以使用-1、-2来抑制任何列的打印 或相应的-3选项。
comm -1 -3 file2 file1
这将显示file1中与file2中任何行不匹配的行。
最后是join,这是一个执行相等操作的实用命令 在指定文件上连接。它的-v选项也允许删除 两个文件之间的公共行。
join -v1 -v2 file1 file2