UTF-8和Unicode有什么区别?

根据维基百科UTF-8页面，我从人们那里听到了相互矛盾的观点。

它们是一样的，不是吗?有人能澄清一下吗?

当前回答

1. Unicode

有很多世界各地的字符,如“$,& h,, t, ?,张,1 = +……”。

然后出现了一个致力于这些角色的组织，

他们制定了统一码标准。

标准如下:

创建一个表单，其中每个位置都称为“代码点”或“代码位置”。整个位置从U+0000到U+10FFFF; 到目前为止，有些位置被字符填充，有些位置被保存或为空。例如，位置“U+0024”被字符“$”填充。

PS:当然，还有另一个叫做ISO的组织维护着另一个标准——“iso10646”，几乎是一样的。

2. utf - 8

如上所述，U+0024只是一个位置，所以我们不能将“U+0024”在电脑中保存为字符“$”。

必须有一种编码方法。

然后是编码方法，如UTF-8,UTF-16,UTF-32,UCS-2....

在UTF-8下，代码点“U+0024”被编码为00100100。

00100100是我们在计算机中为“$”保存的值。

2015-01-05 09:28:52

其他回答

它们不是一回事——UTF-8是编码Unicode的一种特殊方式。

根据您的应用程序和您打算使用的数据，有许多不同的编码可供选择。据我所知，最常见的是UTF-8、UTF-16和UTF-32。

2009-03-13 17:09:23

1. Unicode

有很多世界各地的字符,如“$,& h,, t, ?,张,1 = +……”。

然后出现了一个致力于这些角色的组织，

他们制定了统一码标准。

标准如下:

PS:当然，还有另一个叫做ISO的组织维护着另一个标准——“iso10646”，几乎是一样的。

2. utf - 8

如上所述，U+0024只是一个位置，所以我们不能将“U+0024”在电脑中保存为字符“$”。

必须有一种编码方法。

然后是编码方法，如UTF-8,UTF-16,UTF-32,UCS-2....

在UTF-8下，代码点“U+0024”被编码为00100100。

00100100是我们在计算机中为“$”保存的值。

2015-01-05 09:28:52

你通常从谷歌开始，然后想尝试不同的东西。但是如何打印和转换所有这些字符集呢?

这里我列出了一些有用的一行程序。

Powershell:

# Print character with the Unicode point (U+<hexcode>) using this: 
[char]0x2550

# With Python installed, you can print the unicode character from U+xxxx with:
python -c 'print(u"\u2585")'

如果你有更多的Powershell trix或快捷方式，请评论。

在Bash中，你会喜欢libiconv和util-linux包中的iconv、hexdump和xxd(可能在其他*nix发行版中命名不同)。

# To print the 3-byte hex code for a Unicode character:
printf "\\\x%s" $(printf '═'|xxd -p -c1 -u)
#\xE2\x95\x90

# To print the Unicode character represented by hex string:
printf '\xE2\x96\x85'
#▅

# To convert from UTF-16LE to Unicode
echo -en "════"| iconv -f UTF-16LE -t UNICODEFFFE

# To convert a string into hex: 
echo -en '═�'| xxd -g 1
#00000000: e2 95 90 ef bf bd

# To convert a string into binary:
echo -en '═�\n'| xxd -b
#00000000: 11100010 10010101 10010000 11101111 10111111 10111101  ......
#00000006: 00001010

# To convert a binary string into hex:
printf  '%x\n' "$((2#111000111000000110000010))"
#e38182

2022-01-04 14:50:54

现有的答案已经解释了很多细节，但这里有一个非常简短的答案，有最直接的解释和例子。

Unicode是将字符映射到码点的标准。每个字符都有一个唯一的编码点(识别号)，它是一个像9731这样的数字。

UTF-8是码点的编码。为了将所有字符存储在磁盘上(在文件中)，UTF-8将字符分成最多4个八位字节(8位序列)-字节。 UTF-8是几种编码(表示数据的方法)之一。例如，在Unicode中，(十进制)码位9731表示一个雪人(☃)，它在UTF-8中由3个字节组成:E2 98 83

这是一个排序的列表，其中有一些随机的例子。

2014-05-19 13:57:22

它们是一样的，不是吗?

不，他们不是。

我认为你引用的维基百科页面的第一句话给出了一个很好的，简短的总结:

UTF-8是一种可变宽度字符编码，能够使用一到四个8位字节编码Unicode中的所有1,112,064个有效代码点。

阐述:

Unicode is a standard, which defines a map from characters to numbers, the so-called code points, (like in the example below). For the full mapping, you can have a look here. ! -> U+0021 (21), " -> U+0022 (22), \# -> U+0023 (23) UTF-8 is one of the ways to encode these code points in a form a computer can understand, aka bits. In other words, it's a way/algorithm to convert each of those code points to a sequence of bits or convert a sequence of bits to the equivalent code points. Note that there are a lot of alternative encodings for Unicode.

乔尔给出了一个非常好的解释，并概述了这里的历史。

2018-01-11 19:12:34

UTF-8和Unicode有什么区别?

推荐文章

最新文章

标签