从文件中获取第n行的Bash工具

有没有一种“规范”的方法？我一直在使用head-n|tail-1来完成这个任务，但我一直在想是否有一个Bash工具专门从文件中提取一行（或一系列行）。

我所说的“规范”是指一个主要功能就是这样做的程序。

当前回答

大文件的最快解决方案始终是尾部|头部，前提是两个距离：

从文件开头到开始行。我们称之为S从最后一行到文件结尾的距离。是E吗

是已知的。然后，我们可以使用这个：

mycount="$E"; (( E > S )) && mycount="+$S"
howmany="$(( endline - startline + 1 ))"
tail -n "$mycount"| head -n "$howmany"

多少只是所需的行数。

更多详情请参见https://unix.stackexchange.com/a/216614/79743

2015-07-17 05:34:26

其他回答

根据我的测试，就性能和可读性而言，我的建议是：

尾部-n+n|头部-1

N是您想要的行号。例如，tail-n+7 input.txt | head-1将打印文件的第7行。

tail-n+n将打印从第n行开始的所有内容，head-1将使其在一行之后停止。

可选的head-N|tail-1可能更可读。例如，这将打印第7行：

head-7 input.txt | tail-1

当谈到性能时，较小的文件大小没有太大的差异，但当文件变大时，尾部|头部（从上方）的性能会优于尾部|头部。

排名靠前的是“NUMq；d’很有意思，但我认为，与头/尾解决方案相比，开箱即用的人更少，而且它也比尾/头慢。

在我的测试中，两个尾部/头部版本都优于sed的NUMq；d’一致。这与发布的其他基准一致。很难找到尾巴/脑袋真的很坏的案例。这也不奇怪，因为这些操作在现代Unix系统中会被大量优化。

为了了解性能差异，以下是我从一个巨大文件（9.3G）中得到的数字：

tail-n+n | head-1:3.7秒头-N|尾-1:4.6秒sed Nq；d： 18.8秒

结果可能有所不同，但总体而言，性能头部|尾部和尾部|头部对于较小的输入来说是可比的，sed总是慢了一个重要因素（大约5倍左右）。

要复制我的基准测试，您可以尝试以下操作，但请注意，它将在当前工作目录中创建一个9.3G文件：

#!/bin/bash
readonly file=tmp-input.txt
readonly size=1000000000
readonly pos=500000000
readonly retries=3

seq 1 $size > $file
echo "*** head -N | tail -1 ***"
for i in $(seq 1 $retries) ; do
    time head "-$pos" $file | tail -1
done
echo "-------------------------"
echo
echo "*** tail -n+N | head -1 ***"
echo

seq 1 $size > $file
ls -alhg $file
for i in $(seq 1 $retries) ; do
    time tail -n+$pos $file | head -1
done
echo "-------------------------"
echo
echo "*** sed Nq;d ***"
echo

seq 1 $size > $file
ls -alhg $file
for i in $(seq 1 $retries) ; do
    time sed $pos'q;d' $file
done
/bin/rm $file

这是在我的机器上运行的输出（ThinkPad X1 Carbon，带有SSD和16G内存）。我假设在最后一次运行中，所有内容都将来自缓存，而不是磁盘：

*** head -N | tail -1 ***
500000000

real    0m9,800s
user    0m7,328s
sys     0m4,081s
500000000

real    0m4,231s
user    0m5,415s
sys     0m2,789s
500000000

real    0m4,636s
user    0m5,935s
sys     0m2,684s
-------------------------

*** tail -n+N | head -1 ***

-rw-r--r-- 1 phil 9,3G Jan 19 19:49 tmp-input.txt
500000000

real    0m6,452s
user    0m3,367s
sys     0m1,498s
500000000

real    0m3,890s
user    0m2,921s
sys     0m0,952s
500000000

real    0m3,763s
user    0m3,004s
sys     0m0,760s
-------------------------

*** sed Nq;d ***

-rw-r--r-- 1 phil 9,3G Jan 19 19:50 tmp-input.txt
500000000

real    0m23,675s
user    0m21,557s
sys     0m1,523s
500000000

real    0m20,328s
user    0m18,971s
sys     0m1,308s
500000000

real    0m19,835s
user    0m18,830s
sys     0m1,004s

2017-07-31 13:10:02

sed -n '2p' < file.txt

将打印第二行

sed -n '2011p' < file.txt

2011线

sed -n '10,33p' < file.txt

第10行到第33行

sed -n '1p;3p' < file.txt

第1和第3行

等等

对于使用sed添加行，您可以选中此项：

sed：在某个位置插入一行

2011-05-16 19:39:14

您也可以使用Perl实现这一点：

perl -wnl -e '$.== NUM && print && exit;' some.file

2011-05-16 19:43:41

以上所有答案都直接回答了这个问题。但这是一个不那么直接的解决方案，但可能是一个更重要的想法，可以引起人们的思考。

由于行长度是任意的，因此需要读取文件第n行之前的所有字节。如果您有一个巨大的文件或需要多次重复此任务，并且此过程非常耗时，那么您应该认真考虑是否应该首先以不同的方式存储数据。

真正的解决方案是有一个索引，例如在文件的开头，指示行开始的位置。您可以使用数据库格式，或者在文件开头添加一个表。或者，创建一个单独的索引文件，与大型文本文件一起使用。

例如，您可以为换行符创建一个字符位置列表：

awk 'BEGIN{c=0;print(c)}{c+=length()+1;print(c+1)}' file.txt > file.idx

然后用tail读取，它实际上直接查找文件中的适当点！

例如获得线1000:

tail -c +$(awk 'NR=1000' file.idx) file.txt | head -1

这可能不适用于2字节/多字节字符，因为awk是“字符识别”的，但tail不是。我还没有对一个大文件进行测试。另请参阅此答案。或者，将文件拆分为更小的文件！

2017-10-12 10:44:16

作为CaffeineConnisseur非常有用的基准测试答案的后续。。。我很好奇“mapfile”方法与其他方法相比的速度有多快（因为没有测试），所以我自己尝试了一个快速而肮脏的速度比较，因为我手边有bash 4。在我做这项测试时，我在顶部答案的一条评论中提到了“tail|head”方法（而不是head|tail），因为人们都在称赞它。我没有使用的测试文件的大小；我能在短时间内找到的最好的文件是一个14M的谱系文件（用空格分隔的长行，略低于12000行）。

短版本：mapfile看起来比cut方法快，但比其他任何方法都慢，所以我称它为无用的。tail|head，OTOH，看起来可能是最快的，尽管与sed相比，这种大小的文件差异并不大。

$ time head -11000 [filename] | tail -1
[output redacted]

real    0m0.117s

$ time cut -f11000 -d$'\n' [filename]
[output redacted]

real    0m1.081s

$ time awk 'NR == 11000 {print; exit}' [filename]
[output redacted]

real    0m0.058s

$ time perl -wnl -e '$.== 11000 && print && exit;' [filename]
[output redacted]

real    0m0.085s

$ time sed "11000q;d" [filename]
[output redacted]

real    0m0.031s

$ time (mapfile -s 11000 -n 1 ary < [filename]; echo ${ary[0]})
[output redacted]

real    0m0.309s

$ time tail -n+11000 [filename] | head -n1
[output redacted]

real    0m0.028s

希望这有帮助！

2018-01-10 14:11:15

从文件中获取第n行的Bash工具

推荐文章

最新文章

标签