UTF-8和UTF-8与BOM有什么区别?

UTF-8和UTF-8与BOM有什么不同?哪个更好?

当前回答

引用于维基百科页面底部BOM: http://en.wikipedia.org/wiki/Byte-order_mark#cite_note-2

对于UTF-8，使用BOM既不要求也不推荐，但在从使用BOM的其他编码形式转换UTF-8数据或将BOM用作UTF-8签名的上下文中可能会遇到这种情况。

其他回答

一个实际的区别是，如果你为Mac OS X编写一个shell脚本，并将其保存为普通的UTF-8，你将得到响应:

#!/bin/bash: No such file or directory

在shebang行指定您希望使用哪个shell的响应中:

#!/bin/bash

如果你保存为UTF-8，没有BOM(说在BBEdit)，一切都会很好。

从http://en.wikipedia.org/wiki/Byte-order_mark:

字节顺序标记(BOM)是一个Unicode 符号的符号文本文件的字节顺序或流。其编码点为U+FEFF。 BOM使用是可选的，如果使用，应该出现在文本的开头吗流。除了它的特殊用途字节顺序指示器，即BOM 字符也可以指示哪一个几种Unicode表示文本是用。

总是在文件中使用BOM将确保它总是在支持UTF-8和BOM的编辑器中正确打开。

我对缺少BOM的真正问题如下。假设我们有一个文件，它包含:

abc

如果没有BOM，在大多数编辑器中它会作为ANSI打开。所以这个文件的另一个用户打开它，并添加一些本机字符，例如:

abg-αβγ

哎呀……现在文件仍然在ANSI中，你猜怎么着，“αβγ”不占用6个字节，而是3个字节。这不是UTF-8，这会在开发链的后面引起其他问题。

UTF-8 BOM是文本流开头的字节序列(0xEF, 0xBB, 0xBF)，它允许读者更可靠地猜测文件是否以UTF-8编码。

通常，BOM用于表示编码的字节顺序，但由于字节顺序与UTF-8无关，因此BOM是不必要的。

根据Unicode标准，不建议使用UTF-8文件的BOM:

2.6编码方案．.．对于UTF-8，既不要求也不建议使用BOM，但在将UTF-8数据从使用BOM的其他编码形式转换或将BOM用作UTF-8签名的上下文中可能会遇到这种情况。有关更多信息，请参阅第16.8节特殊项中的“字节顺序标记”小节。

我从另一个角度看这个问题。我认为UTF-8与BOM更好，因为它提供了更多关于文件的信息。我只在遇到问题时才使用没有BOM的UTF-8。

我在我的页面上使用多种语言(甚至西里尔字母)很长一段时间，当文件保存时没有BOM，我重新打开它们用编辑器编辑(cherouvim也指出)，一些字符被损坏了。

请注意，当您尝试以UTF-8编码保存新创建的文件时，Windows的经典记事本会自动保存带有BOM的文件。

我个人保存带有BOM的服务器端脚本文件(.asp， .ini， .aspx)和没有BOM的.html文件。

只有当文件实际包含一些非ascii字符时，UTF-8和BOM才有用。如果包含了它，而没有任何ASCII，那么它可能会破坏旧的应用程序，否则将文件解释为纯ASCII。当遇到非ASCII字符时，这些应用程序肯定会失败，因此在我看来，只有当文件可以并且不应该再被解释为纯ASCII时，才应该添加BOM。

我想说清楚的是，我宁愿没有BOM。如果一些旧的垃圾没有它就坏了，那么就添加它，替换遗留应用程序是不可行的。

不要制作UTF-8的BOM之外的任何东西。

推荐文章