为什么文本文件应该以换行符结尾？

为什么（文本）文件应该以换行符结尾？

正如许多人所表达的，因为：

许多程序运行不好，或者没有它就会失败。即使能很好地处理文件的程序缺少结尾“\n”，该工具的功能也可能无法满足用户的期望——在这种情况下，这一点可能不清楚。程序很少禁止最后的“\n”（我不知道有）。

然而，这引出了下一个问题：

代码应该如何处理没有换行符的文本文件？

最重要的是，不要编写假设文本文件以换行符结尾的代码。假设文件符合某种格式会导致数据损坏、黑客攻击和崩溃。例子：//错误的代码while（fgets（buf，buf大小，instream））{//如果没有\n，buf[]被截断，会发生什么buf[strlen（buf）-1]=“\0”；//尝试删除尾部\n...}如果需要最后一个结尾“\n”，请提醒用户该结尾不存在以及所采取的操作。IOW，验证文件的格式。注意：这可能包括对最大行长度、字符编码等的限制。清楚地定义，文档，代码对缺少final“\n”的处理。尽可能不要生成缺少结尾“\n”的文件。

2015-06-20 15:26:39

这源于使用简单终端的早期。换行符用于触发传输数据的“刷新”。

今天，不再需要换行符。当然，如果没有换行符，许多应用程序仍然存在问题，但我认为这是这些应用程序中的一个错误。

然而，如果你有一个需要换行符的文本文件格式，那么你可以得到非常便宜的简单数据验证：如果文件以结尾没有换行符的行结尾，那么你就知道文件已损坏。每行只有一个额外的字节，您可以高精度地检测损坏的文件，几乎不需要CPU时间。

2009-04-08 12:41:21

为什么（文本）文件应该以换行符结尾？

正如许多人所表达的，因为：

许多程序运行不好，或者没有它就会失败。即使能很好地处理文件的程序缺少结尾“\n”，该工具的功能也可能无法满足用户的期望——在这种情况下，这一点可能不清楚。程序很少禁止最后的“\n”（我不知道有）。

然而，这引出了下一个问题：

代码应该如何处理没有换行符的文本文件？

最重要的是，不要编写假设文本文件以换行符结尾的代码。假设文件符合某种格式会导致数据损坏、黑客攻击和崩溃。例子：//错误的代码while（fgets（buf，buf大小，instream））{//如果没有\n，buf[]被截断，会发生什么buf[strlen（buf）-1]=“\0”；//尝试删除尾部\n...}如果需要最后一个结尾“\n”，请提醒用户该结尾不存在以及所采取的操作。IOW，验证文件的格式。注意：这可能包括对最大行长度、字符编码等的限制。清楚地定义，文档，代码对缺少final“\n”的处理。尽可能不要生成缺少结尾“\n”的文件。

2015-06-20 15:26:39

有些工具会这样做。例如，wc期望如下：

$ echo -n "Line not ending in a new line" | wc -l
0
$ echo "Line ending with a new line" | wc -l
1

2011-10-12 14:16:58

很可能只是一些解析代码希望它在那里。

我不确定我是否会认为这是一条“规则”，而且这肯定不是我虔诚地遵守的。最明智的代码将知道如何逐行解析文本（包括编码）（任何行结尾的选择），最后一行是否有换行符。

的确，如果你以一条新的线结束：EOL和EOF之间（理论上）是否有一条空的最终线？一个值得思考的。。。

2009-04-08 12:19:54

因为POSIX标准就是这样定义一行的：

3.206线路一个由零个或多个非<换行符>字符加上一个终止<换行符]字符组成的序列。

因此，不以换行符结尾的行不被视为实际行。这就是为什么有些程序在处理文件的最后一行时遇到问题，如果它不是换行符。

在使用终端仿真器时，该指南至少有一个硬优势：所有Unix工具都希望使用此约定并使用它。例如，当使用cat连接文件时，以换行符结尾的文件将具有不同于不使用的效果：

$ more a.txt
foo
$ more b.txt
bar$ more c.txt
baz
$ cat {a,b,c}.txt
foo
barbaz

而且，如前一个示例所示，当在命令行上显示文件时（例如，通过more），换行的文件会导致正确的显示。未正确终止的文件可能会乱码（第二行）。

为了保持一致性，遵循这一规则非常有帮助——否则在处理默认Unix工具时会产生额外的工作。

换一种方式思考：如果行没有以换行符结尾，那么让cat之类的命令变得有用就要困难得多了：如何创建一个连接文件的命令，以便

它将每个文件的开头放在一个新行上，这是您95%的时间所希望的；但是它允许合并两个文件的最后一行和第一行，就像上面的例子中的b.txt和c.txt？

当然，这是可以解决的，但您需要使cat的使用更加复杂（通过添加位置命令行参数，例如cat a.txt--no newline b.txt c.txt），现在命令而不是每个单独的文件控制它如何与其他文件粘贴在一起。这几乎肯定不方便。

……或者您需要引入一个特殊的哨兵字符来标记应该继续而不是终止的行。好吧，现在您遇到了与POSIX相同的情况，除了反转（行继续而不是行终止字符）。

现在，在非POSIX兼容的系统（现在主要是Windows）上，问题是没有意义的：文件通常不会以换行符结尾，例如，行的（非正式）定义可能是“用换行符分隔的文本”（注意重点）。这是完全有效的。然而，对于结构化数据（例如编程代码），它使解析更加复杂：这通常意味着必须重写解析器。如果解析器最初是在考虑POSIX定义的情况下编写的，那么修改令牌流可能比修改解析器更容易——换句话说，在输入末尾添加一个“人造换行符”令牌。

2009-04-08 12:46:40

为什么文本文件应该以换行符结尾？

推荐文章

最新文章

标签