UTF-8和UTF-8与BOM有什么区别? - Code

UTF-8和UTF-8与BOM有什么不同?哪个更好?

当前回答

Unicode字节顺序标记(BOM)常见问题解答提供了一个简明的答案:

Q: How I should deal with BOMs? A: Here are some guidelines to follow: A particular protocol (e.g. Microsoft conventions for .txt files) may require use of the BOM on certain Unicode data streams, such as files. When you need to conform to such a protocol, use a BOM. Some protocols allow optional BOMs in the case of untagged text. In those cases, Where a text data stream is known to be plain text, but of unknown encoding, BOM can be used as a signature. If there is no BOM, the encoding could be anything. Where a text data stream is known to be plain Unicode text (but not which endian), then BOM can be used as a signature. If there is no BOM, the text should be interpreted as big-endian. Some byte oriented protocols expect ASCII characters at the beginning of a file. If UTF-8 is used with these protocols, use of the BOM as encoding form signature should be avoided. Where the precise type of the data stream is known (e.g. Unicode big-endian or Unicode little-endian), the BOM should not be used. In particular, whenever a data stream is declared to be UTF-16BE, UTF-16LE, UTF-32BE or UTF-32LE a BOM must not be used.

2018-03-08 13:58:08

其他回答

当您希望显示以UTF-8编码的信息时，可能不会遇到问题。例如，将HTML文档声明为UTF-8，您将在浏览器中显示文档主体中包含的所有内容。

但在Windows或Linux上，当我们有文本、CSV和XML文件时，情况就不同了。

例如，Windows或Linux中的文本文件，这是最简单的事情之一，它(通常)不是UTF-8。

保存为XML并声明为UTF-8:

<?xml version="1.0" encoding="UTF-8"?>

即使声明为UTF-8，它也不能正确显示(不能读取)。

我有一串包含法语字母的数据，需要将其保存为XML以进行联合。无需从一开始就创建UTF-8文件(更改IDE中的选项和“创建新文件”)或在文件开头添加BOM

$file="\xEF\xBB\xBF".$string;

我无法将法语字母保存在XML文件中。

2012-09-10 16:50:05

UTF-8 BOM是文本流开头的字节序列(0xEF, 0xBB, 0xBF)，它允许读者更可靠地猜测文件是否以UTF-8编码。

通常，BOM用于表示编码的字节顺序，但由于字节顺序与UTF-8无关，因此BOM是不必要的。

根据Unicode标准，不建议使用UTF-8文件的BOM:

2.6编码方案．.．对于UTF-8，既不要求也不建议使用BOM，但在将UTF-8数据从使用BOM的其他编码形式转换或将BOM用作UTF-8签名的上下文中可能会遇到这种情况。有关更多信息，请参阅第16.8节特殊项中的“字节顺序标记”小节。

2010-02-08 18:33:26

将BOM放在UTF-8编码的文件中至少有三个问题。

不包含文本的文件不再为空，因为它们始终包含BOM。在UTF-8的ASCII子集中保存文本的文件本身不再是ASCII，因为BOM不是ASCII，这使得一些现有工具无法使用，用户可能不可能替换这些遗留工具。不可能将几个文件连接在一起，因为现在每个文件开头都有一个BOM。

而且，正如其他人所提到的，使用BOM来检测某些东西是否是UTF-8是既不够也没有必要的:

这是不够的，因为任意字节序列可能恰好以构成BOM的确切序列开始。这是不必要的，因为你可以像读取UTF-8一样读取字节;如果成功，根据定义，它是有效的UTF-8。

2012-11-15 13:28:57

我从另一个角度看这个问题。我认为UTF-8与BOM更好，因为它提供了更多关于文件的信息。我只在遇到问题时才使用没有BOM的UTF-8。

我在我的页面上使用多种语言(甚至西里尔字母)很长一段时间，当文件保存时没有BOM，我重新打开它们用编辑器编辑(cherouvim也指出)，一些字符被损坏了。

请注意，当您尝试以UTF-8编码保存新创建的文件时，Windows的经典记事本会自动保存带有BOM的文件。

我个人保存带有BOM的服务器端脚本文件(.asp， .ini， .aspx)和没有BOM的.html文件。

2012-05-11 08:34:50

UTF-8和没有BOM的UTF-8有什么不同?

简单回答:在UTF-8中，BOM编码为文件开头的字节EF BB BF。

长一点的回答:

最初，预计Unicode将以UTF-16/UCS-2编码。BOM是为这种编码形式设计的。当您有2字节的代码单元时，有必要指出这两个字节的顺序，这样做的一个常见惯例是在数据的开头包含字符U+FEFF作为“字节顺序标记”。字符U+FFFE是永久未分配的，因此可以使用它来检测错误的字节顺序。

不管平台字节顺序如何，UTF-8都具有相同的字节顺序，因此不需要字节顺序标记。然而，它可能出现在从UTF-16转换为UTF-8的数据中(作为字节序列EF BB FF)，或者作为表示数据为UTF-8的“签名”。

哪个更好?

没有。正如Martin Cote回答的那样，Unicode标准并不推荐这样做。它会导致非bom识别软件出现问题。

检测文件是否为UTF-8的更好方法是执行有效性检查。UTF-8对哪些字节序列是有效的有严格的规则，因此假阳性的概率可以忽略不计。如果一个字节序列看起来像UTF-8，那么它可能就是。

2010-07-31 22:53:25

aliyun