UTF-8和Unicode有什么区别?

根据维基百科UTF-8页面，我从人们那里听到了相互矛盾的观点。

它们是一样的，不是吗?有人能澄清一下吗?

当前回答

它们是一样的，不是吗?

不，他们不是。

我认为你引用的维基百科页面的第一句话给出了一个很好的，简短的总结:

UTF-8是一种可变宽度字符编码，能够使用一到四个8位字节编码Unicode中的所有1,112,064个有效代码点。

阐述:

Unicode is a standard, which defines a map from characters to numbers, the so-called code points, (like in the example below). For the full mapping, you can have a look here. ! -> U+0021 (21), " -> U+0022 (22), \# -> U+0023 (23) UTF-8 is one of the ways to encode these code points in a form a computer can understand, aka bits. In other words, it's a way/algorithm to convert each of those code points to a sequence of bits or convert a sequence of bits to the equivalent code points. Note that there are a lot of alternative encodings for Unicode.

乔尔给出了一个非常好的解释，并概述了这里的历史。

2018-01-11 19:12:34

其他回答

让我用一个例子来说明这个话题:

A Chinese character:      汉
its Unicode value:        U+6C49
convert 6C49 to binary:   01101100 01001001

目前还没有什么神奇的，很简单。现在，假设我们决定将这个字符存储在硬盘驱动器上。为此，我们需要以二进制格式存储字符。我们可以简单地将其存储为'01101100 01001001'。完成了!

但是等一下，'01101100 01001001'是一个字符还是两个字符?你知道这是一个字符，因为我告诉过你，但当计算机读取它时，它不知道。所以我们需要某种编码来告诉计算机把它当做一个。

这就是UTF-8规则的用武之地:https://www.fileformat.info/info/unicode/utf8.htm

Binary format of bytes in sequence

1st Byte    2nd Byte    3rd Byte    4th Byte    Number of Free Bits   Maximum Expressible Unicode Value
0xxxxxxx                                                7             007F hex (127)
110xxxxx    10xxxxxx                                (5+6)=11          07FF hex (2047)
1110xxxx    10xxxxxx    10xxxxxx                  (4+6+6)=16          FFFF hex (65535)
11110xxx    10xxxxxx    10xxxxxx    10xxxxxx    (3+6+6+6)=21          10FFFF hex (1,114,111)

根据上面的表格，如果我们想要使用UTF-8格式存储这个字符，我们需要给我们的字符加上一些'headers'前缀。我们的中文字符有16位长(你自己计算二进制值)，所以我们将在第三行使用该格式，因为它提供了足够的空间:

Header  Place holder    Fill in our Binary   Result         
1110    xxxx            0110                 11100110
10      xxxxxx          110001               10110001
10      xxxxxx          001001               10001001

将结果写在一行中:

11100110 10110001 10001001

这是UTF-8二进制值的汉字!你自己看看:https://www.fileformat.info/info/unicode/char/6c49/index.htm

总结

A Chinese character:      汉
its Unicode value:        U+6C49
convert 6C49 to binary:   01101100 01001001
encode 6C49 as UTF-8:     11100110 10110001 10001001

附注:如果你想用Python学习本主题，请点击这里。

2015-01-14 09:07:10

现有的答案已经解释了很多细节，但这里有一个非常简短的答案，有最直接的解释和例子。

Unicode是将字符映射到码点的标准。每个字符都有一个唯一的编码点(识别号)，它是一个像9731这样的数字。

UTF-8是码点的编码。为了将所有字符存储在磁盘上(在文件中)，UTF-8将字符分成最多4个八位字节(8位序列)-字节。 UTF-8是几种编码(表示数据的方法)之一。例如，在Unicode中，(十进制)码位9731表示一个雪人(☃)，它在UTF-8中由3个字节组成:E2 98 83

这是一个排序的列表，其中有一些随机的例子。

2014-05-19 13:57:22

如果我可以总结一下我从这篇文章中收集到的信息:

Unicode将字符分配给序数(十进制形式)。(这些数字被称为码位。)

à -> 224

UTF-8是一种将这些序数(十进制形式)“转换”为二进制表示的编码。

224 -> 11000011 10100000

注意，我们讨论的是224的二进制表示，而不是它的二进制形式，即0b11100000。

2019-07-18 07:17:46

不幸的是，“Unicode”根据上下文以各种不同的方式使用。它最正确的用法(IMO)是作为编码字符集——即一组字符以及字符与表示它们的整数码位之间的映射。

UTF-8是一种字符编码——一种将字节序列转换为字符序列的方法，反之亦然。它涵盖了整个Unicode字符集。ASCII编码为每个字符一个字节，其他字符根据其确切的码位占用更多字节(当前定义的所有码位最多4个字节，即最多U-0010FFFF，实际上4个字节可以处理最多U-001FFFFF)。

当“Unicode”被用作字符编码的名称时(例如，作为. net编码。Unicode属性)通常表示UTF-16，它将大多数常见字符编码为两个字节。一些平台(特别是。net和Java)使用UTF-16作为它们的“原生”字符编码。如果您需要担心不能在单个UTF-16值中编码的字符(它们被编码为“代理对”)，这将导致一些棘手的问题——但大多数开发人员从不担心这一点，IME。

关于Unicode的一些参考:

Unicode联盟网站，特别是教程部分乔尔的文章我自己的文章(面向. net)

2009-03-13 17:11:10

它们不是一回事——UTF-8是编码Unicode的一种特殊方式。

根据您的应用程序和您打算使用的数据，有许多不同的编码可供选择。据我所知，最常见的是UTF-8、UTF-16和UTF-32。

2009-03-13 17:09:23

UTF-8和Unicode有什么区别?

推荐文章

最新文章

标签