一个Unicode字符需要多少字节?

我对编码有点困惑。据我所知，旧的ASCII字符每个字符占用一个字节。一个Unicode字符需要多少字节?

我假设一个Unicode字符可以包含任何语言的所有可能字符——我说的对吗?那么每个字符需要多少字节呢?

UTF-7、UTF-6、UTF-16等是什么意思?它们是Unicode的不同版本吗?

我读了维基百科上关于统一码的文章，但对我来说太难了。我期待看到一个简单的答案。

当前回答

简单地说，Unicode是一种为世界上所有字符分配一个数字(称为码位)的标准(它仍在进行中)。

现在你需要用字节表示这些代码点，这叫做字符编码。UTF-8, UTF-16, UTF-6是表示这些字符的方法。

UTF-8是多字节字符编码。字符可以有1到6个字节(其中一些现在可能不需要)。

UTF-32每个字符有4个字节一个字符。

UTF-16为每个字符使用16位，它只表示称为BMP的Unicode字符的一部分(对于所有实际目的来说已经足够了)。Java在其字符串中使用这种编码。

2011-03-13 15:15:09

其他回答

对于UTF-16，如果字符以0xD800或更大开头，则需要四个字节(两个代码单元);这样的字符称为“代理对”。更具体地说，代理对的形式是:

[0xD800 - 0xDBFF]  [0xDC00 - 0xDFF]

在[…]表示给定范围的双字节代码单元。任何<= 0xD7FF的值都是一个代码单元(两个字节)。任何>= 0xE000都是无效的(BOM标记除外)。

参见http://unicodebook.readthedocs.io/unicode_encodings.html，第7.5节。

2016-07-12 20:45:30

看看这个Unicode代码转换器。例如，在“0x…”字段，然后单击Convert。十六进制数E2 80 89(3字节)出现在“UTF-8 code units”字段中。

2013-10-09 16:14:39

Unicode是一种为每个字符提供唯一编号的标准。这些唯一的数字被称为代码点(这只是唯一的代码)，适用于世界上所有存在的字符(有些字符还有待添加)。

出于不同的目的，您可能需要用字节表示这些代码点(大多数编程语言都是这样做的)，这就是字符编码发挥作用的地方。

UTF-8、UTF-16、UTF-32等等都是字符编码，Unicode的码位以不同的方式在这些编码中表示。

UTF-8编码具有可变宽度长度，其中编码的字符可以占用1到4个字节(包括);

UTF-16具有可变长度，其中编码的字符可以占用1或2个字节(即8或16位)。这只代表了称为BMP(基本多语言平面)的所有Unicode字符的一部分，对于几乎所有的情况都足够了。Java对其字符串和字符使用UTF-16编码;

UTF-32有固定的长度，每个字符正好占用4个字节(32位)。

2020-06-17 14:15:03

简单地说，Unicode是一种为世界上所有字符分配一个数字(称为码位)的标准(它仍在进行中)。

现在你需要用字节表示这些代码点，这叫做字符编码。UTF-8, UTF-16, UTF-6是表示这些字符的方法。

UTF-8是多字节字符编码。字符可以有1到6个字节(其中一些现在可能不需要)。

UTF-32每个字符有4个字节一个字符。

UTF-16为每个字符使用16位，它只表示称为BMP的Unicode字符的一部分(对于所有实际目的来说已经足够了)。Java在其字符串中使用这种编码。

2011-03-13 15:15:09

你不会看到一个简单的答案，因为根本就没有答案。

首先，Unicode并没有包含“每一种语言的每一个字符”，尽管它确实尝试了。

Unicode本身是一种映射，它定义码点，码点是一个数字，通常与一个字符相关联。我说通常是因为有像组合字符这样的概念。你可能对口音或变音很熟悉。它们可以与其他字符一起使用，例如a或u来创建一个新的逻辑字符。因此，一个字符可以由一个或多个码位组成。

To be useful in computing systems we need to choose a representation for this information. Those are the various unicode encodings, such as utf-8, utf-16le, utf-32 etc. They are distinguished largely by the size of of their codeunits. UTF-32 is the simplest encoding, it has a codeunit that is 32bits, which means an individual codepoint fits comfortably into a codeunit. The other encodings will have situations where a codepoint will need multiple codeunits, or that particular codepoint can't be represented in the encoding at all (this is a problem for instance with UCS-2).

由于组合字符的灵活性，即使在给定的编码中，每个字符的字节数也可以根据字符和规范化形式而变化。这是一种用于处理具有多个表示的字符的协议(您可以说“带重音的'a'”是2个代码点，其中一个是组合字符或“带重音的'a'”是一个代码点)。

2011-03-13 15:19:29

一个Unicode字符需要多少字节?

推荐文章

最新文章

标签