如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

如何在.NET（C#）中将字符串转换为字节[]而不手动指定特定编码？

我要加密字符串。我可以在不进行转换的情况下对其进行加密，但我仍然想知道为什么编码会在这里发挥作用。

此外，为什么还要考虑编码？我不能简单地获取字符串存储的字节数吗？为什么依赖字符编码？

当前回答

对于串行通信项目，我必须将字符串转换为字节数组-我必须处理8位字符，而且我无法找到使用框架转换器的方法，这样既不会添加两个字节条目，也不会错误地转换具有第八位集的字节。所以我做了以下工作：

string message = "This is a message.";
byte[] bytes = new byte[message.Length];
for (int i = 0; i < message.Length; i++)
    bytes[i] = (byte)message[i];

2016-01-21 17:19:03

其他回答

只需使用此选项：

byte[] myByte= System.Text.ASCIIEncoding.Default.GetBytes(myString);

2015-06-30 14:39:07

这取决于字符串的编码（ASCII、UTF-8…）。

例如：

byte[] b1 = System.Text.Encoding.UTF8.GetBytes (myString);
byte[] b2 = System.Text.Encoding.ASCII.GetBytes (myString);

编码重要的一个小例子：

string pi = "\u03a0";
byte[] ascii = System.Text.Encoding.ASCII.GetBytes (pi);
byte[] utf8 = System.Text.Encoding.UTF8.GetBytes (pi);

Console.WriteLine (ascii.Length); //Will print 1
Console.WriteLine (utf8.Length); //Will print 2
Console.WriteLine (System.Text.Encoding.ASCII.GetString (ascii)); //Will print '?'

ASCII根本无法处理特殊字符。

在内部，.NET框架使用UTF-16表示字符串，因此，如果您只想获得.NET使用的确切字节，请使用System.Text.Encoding.Unicode.GetBytes（…）。

有关详细信息，请参阅.NET Framework（MSDN）中的字符编码。

2009-01-23 13:43:51

字符既是字体表的查找键，也是词汇传统，如排序、大小写版本等。

因此，字符不是字节（8位），字节不是字符。特别是，一个字节的256个排列不能容纳某些书面语言中的数千个符号，更不用说所有语言了。因此，已经设计了各种编码字符的方法。某些编码用于特定类别的语言（ASCII编码）；使用代码页的多种语言（扩展ASCII）；或者，雄心勃勃地，通过根据需要选择性地包括额外的字节，Unicode来实现所有语言。

在系统（如.NET框架）中，字符串表示特定的字符编码。在.NET中，此编码为Unicode。由于框架默认读取和写入Unicode，因此在.NET中通常不需要处理字符编码。

然而，一般来说，要从字节流将字符串加载到系统中，您需要知道源编码，从而正确解释并随后翻译它（否则代码将被视为已在系统的默认编码中，从而呈现乱码）。类似地，当字符串被写入外部源时，它将以特定的编码被写入。

2014-08-28 16:14:16

计算机只理解原始二进制数据，原始比特。一位是二进制数字：0或1。8位数字是一个字节。一个字节是介于0和255之间的数字。

ASCII是一种将数字转换为字符的表格。0到31之间的数字是控件：制表符、换行符和其他。32到126之间的数字为可打印字符：字母a，数字1，%符号，下划线_

因此，对于ASCII，有33个控制字符和95个可打印字符。

ASCII是当今最常用的字符编码。Unicode表的第一个条目是ASCII，并与ASCII字符集匹配。

ASCII是一个7位字符集。介于0和127之间的数字。使用8位，我们可以达到255位。

ASCII最常见的替代品是EBCDIC，它与ASCII不兼容，今天仍然存在于IBM计算机和数据库中。

1字节，因此8位数字是当今计算机科学中最常用的单位。1字节是介于0和255之间的数字。

ASCII为0到127之间的每个数字定义了一个含义。

与128和255之间的数字相关联的字符取决于所使用的字符编码。目前广泛使用的两种字符编码是windows1252和UTF-8。

在windows1252中，欧元符号对应的数字是128。1字节：[A0]。在Unicode数据库中，欧元符号是数字8364。

现在我给你电话8364。两个字节：[20，AC]。在UTF-8中，欧元符号是数字14844588。三个字节：[E282AC]。

现在我给你一些原始数据。假设20AC。是两个windows1252字符：£还是一个Unicode€符号？

我给你一些原始数据。e282交流。82是windows1252中未分配的字符，因此它可能不是windows1252。它可能是macRoman“”C“”或OEM 437“”或UTF-8“€”符号。

根据字符编码的特性和统计数据，可以猜测原始字节流的编码，但没有可靠的方法。128到255之间的数字在UTF-8中是无效的。é在某些语言（法语）中很常见，因此如果您看到许多字节的值E9被字母包围，那么它可能是一个windows1252编码字符串，E9字节表示é字符。

当您有一个表示字符串的原始字节流时，了解匹配的编码比猜测要好得多。

下面是曾经被广泛使用的各种编码中的一个原始字节的屏幕截图。

2022-09-26 23:26:32

您需要考虑编码，因为1个字符可以由1个或多个字节（最多约6个）表示，不同的编码将对这些字节进行不同的处理。

Joel对此发表了一篇帖子：

绝对最低限度每个软件开发人员绝对、肯定地必须了解Unicode和字符集（没有借口！）

2009-01-23 14:03:30

如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

推荐文章

最新文章

标签