UTF-8、UTF-16、UTF-32

UTF-8、UTF-16和UTF-32之间有什么区别?

我知道它们都将存储Unicode，并且每个都使用不同的字节数来表示一个字符。选择一个比另一个有优势吗?

当前回答

utf - 8

没有字节顺序的概念每个字符使用1到4个字节 ASCII是一种兼容的编码子集完全自同步，例如从流中的任何地方删除字节最多只会损坏一个字符几乎所有的欧洲语言都是用两个字节或更少的字符编码的

utf - 16

必须使用已知的字节顺序进行解析，或者读取字节顺序标记(BOM)。每个字符使用2或4个字节

utf - 32

每个字符是4个字节必须使用已知的字节顺序进行解析，或者读取字节顺序标记(BOM)。

UTF-8将是空间效率最高的，除非大多数字符来自CJK(中国、日本和韩国)字符空间。

UTF-32最适合通过字符偏移量随机访问字节数组。

2015-03-05 20:05:10

其他回答

简而言之:

UTF-8: Variable-width encoding, backwards compatible with ASCII. ASCII characters (U+0000 to U+007F) take 1 byte, code points U+0080 to U+07FF take 2 bytes, code points U+0800 to U+FFFF take 3 bytes, code points U+10000 to U+10FFFF take 4 bytes. Good for English text, not so good for Asian text. UTF-16: Variable-width encoding. Code points U+0000 to U+FFFF take 2 bytes, code points U+10000 to U+10FFFF take 4 bytes. Bad for English text, good for Asian text. UTF-32: Fixed-width encoding. All code points take four bytes. An enormous memory hog, but fast to operate on. Rarely used.

长:参见维基百科:UTF-8, UTF-16和UTF-32。

2009-01-30 17:10:09

我做了一些测试来比较MySQL中UTF-8和UTF-16之间的数据库性能。

更新的速度

utf - 8

utf - 16

插入的速度

删除速度

2013-01-08 11:25:52

我试图在我的博客中给出一个简单的解释。

utf - 32

需要32位(4字节)来编码任何字符。例如，为了使用这个方案来表示“A”字符代码点，你需要用32位二进制数字写65:

00000000 00000000 00000000 01000001 (Big Endian)

如果仔细观察，您会注意到最右边的7位实际上是使用ASCII格式时的相同位。但是由于UTF-32是固定宽度的方案，我们必须附加三个额外的字节。这意味着，如果我们有两个只包含“A”字符的文件，一个是ascii编码的，另一个是UTF-32编码的，它们的大小将分别为1字节和4字节。

utf - 16

许多人认为UTF-32使用固定宽度的32位来表示码位，UTF-16是固定宽度的16位。错了!

在UTF-16中，码位可以用16位或32位表示。所以这个方案是变长编码系统。与UTF-32相比，它的优势是什么?至少对于ASCII，文件的大小不会是原始文件的4倍(但仍然是两倍)，所以我们仍然不能向后兼容ASCII。

由于7位足以表示“A”字符，我们现在可以使用2个字节，而不是像UTF-32那样使用4个字节。它看起来是这样的:

00000000 01000001

utf - 8

你猜对了。在UTF-8中，码位可以用32位、16位、24位或8位来表示，作为UTF-16系统，这也是一种变长编码系统。

最后，我们可以用与ASCII编码系统相同的方式来表示“A”:

01001101

一个小例子，UTF-16实际上比UTF-8更好:

考虑中文字母“語”，它的UTF-8编码是:

11101000 10101010 10011110

虽然它的UTF-16编码较短:

10001010 10011110

为了了解这种表达方式以及它是如何解释的，请访问原文。

2016-02-03 16:16:07

UTF-8为变量1 ~ 4字节。 UTF-16是可变的2或4字节。 UTF-32是固定的4字节。

2009-01-30 17:10:29

utf - 8

utf - 16

必须使用已知的字节顺序进行解析，或者读取字节顺序标记(BOM)。每个字符使用2或4个字节

utf - 32

每个字符是4个字节必须使用已知的字节顺序进行解析，或者读取字节顺序标记(BOM)。

UTF-8将是空间效率最高的，除非大多数字符来自CJK(中国、日本和韩国)字符空间。

UTF-32最适合通过字符偏移量随机访问字节数组。

2015-03-05 20:05:10

UTF-8、UTF-16、UTF-32

推荐文章

最新文章

标签