我有一个包含数千个数字的文件,每个数字都在自己的行上:

34
42
11
6
2
99
...

我想写一个脚本,它将打印文件中所有数字的总和。我有一个解决办法,但不是很有效。(运行需要几分钟。)我在寻找一个更有效的解决方案。有什么建议吗?


当前回答

对于Perl一行程序,它基本上与Ayman Hourieh回答中的awk解决方案是一样的:

 % perl -nle '$sum += $_ } END { print $sum'

如果您对Perl一行程序的功能感到好奇,可以将它们分离:

 %  perl -MO=Deparse -nle '$sum += $_ } END { print $sum'

结果是一个更冗长的程序版本,其形式是没有人会自己编写的:

BEGIN { $/ = "\n"; $\ = "\n"; }
LINE: while (defined($_ = <ARGV>)) {
    chomp $_;
    $sum += $_;
}
sub END {
    print $sum;
}
-e syntax OK

只是为了搞笑,我用一个包含1,000,000个数字(范围为0 - 9,999)的文件尝试了这个方法。在我的Mac Pro上,它几乎是立即返回的。这太糟糕了,因为我希望使用mmap会非常快,但它只是在同一时间:

use 5.010;
use File::Map qw(map_file);

map_file my $map, $ARGV[0];

$sum += $1 while $map =~ m/(\d+)/g;

say $sum;

其他回答

考虑到你需要通读整个文件,我不知道你是否能找到比这更好的。

$sum = 0;
while(<>){
   $sum += $_;
}
print $sum;
sed ':a;N;s/\n/+/;ta' file|bc

你可以使用awk:

awk '{ sum += $1 } END { print sum }' file

这是另一个:

open(FIL, "a.txt");

my $sum = 0;
foreach( <FIL> ) {chomp; $sum += $_;}

close(FIL);

print "Sum = $sum\n";

C总是以速度取胜:

#include <stdio.h>
#include <stdlib.h>

int main(int argc, char **argv) {
    ssize_t read;
    char *line = NULL;
    size_t len = 0;
    double sum = 0.0;

    while (read = getline(&line, &len, stdin) != -1) {
        sum += atof(line);
    }

    printf("%f", sum);
    return 0;
}

1M数字的计时(与我的python答案相同的机器/输入):

$ gcc sum.c -o sum && time ./sum < numbers 
5003371677.000000
real    0m0.188s
user    0m0.180s
sys     0m0.000s