如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

如何在.NET（C#）中将字符串转换为字节[]而不手动指定特定编码？

我要加密字符串。我可以在不进行转换的情况下对其进行加密，但我仍然想知道为什么编码会在这里发挥作用。

此外，为什么还要考虑编码？我不能简单地获取字符串存储的字节数吗？为什么依赖字符编码？

当前回答

这是一个流行的问题。重要的是要了解作者所问的问题，以及它与最常见的需求不同。为了防止在不需要的地方滥用代码，我首先回答了后者。

共同需求

每个字符串都有一个字符集和编码。将System.String对象转换为System.Byte数组时，仍有字符集和编码。对于大多数用途，您可以知道需要哪个字符集和编码，.NET使“复制并转换”变得简单。只需选择适当的encoding类即可。

// using System.Text;
Encoding.UTF8.GetBytes(".NET String to byte array")

转换可能需要处理目标字符集或编码不支持源中的字符的情况。您有一些选择：异常、替换或跳过。默认策略是替换“？”。

// using System.Text;
var text = Encoding.ASCII.GetString(Encoding.ASCII.GetBytes("You win €100")); 
                                                      // -> "You win ?100"

显然，转换不一定是无损的！

注意：对于System.String，源字符集是Unicode。

唯一令人困惑的是，.NET使用字符集的名称作为该字符集的一个特定编码的名称。编码。Unicode应称为Encoding.UTF16。

这就是大多数用法。如果这正是你所需要的，请停止阅读这里。如果您不了解编码是什么，请参阅有趣的Joel Spolsky文章。

特定需求

现在，作者提出的问题是，“每个字符串都存储为一个字节数组，对吗？为什么我不能简单地拥有这些字节？”

他不想改变信仰。

根据C#规范：

C#中的字符和字符串处理使用Unicode编码。字符类型表示UTF-16代码单元，字符串类型表示UTF-16代码单元序列。

因此，我们知道，如果我们请求空转换（即，从UTF-16到UTF-16），我们将得到所需的结果：

Encoding.Unicode.GetBytes(".NET String to byte array")

但为了避免提及编码，我们必须采用另一种方式。如果可以接受中间数据类型，则有一个概念上的快捷方式：

".NET String to byte array".ToCharArray()

这并不能为我们提供所需的数据类型，但Mehrad的答案显示了如何使用BlockCopy将此Char数组转换为Byte数组。然而，这将复制字符串两次！而且，它也显式地使用特定于编码的代码：数据类型System.Char。

获取存储字符串的实际字节的唯一方法是使用指针。fixed语句允许获取值的地址。根据C#规范：

[对于]字符串类型的表达式。。。初始值设定项计算字符串中第一个字符的地址。

为此，编译器使用RuntimeHelpers.OffsetToStringData跳过字符串对象的其他部分编写代码。因此，要获取原始字节，只需创建一个指向字符串的指针并复制所需的字节数。

// using System.Runtime.InteropServices
unsafe byte[] GetRawBytes(String s)
{
    if (s == null) return null;
    var codeunitCount = s.Length;
    /* We know that String is a sequence of UTF-16 code units 
       and such code units are 2 bytes */
    var byteCount = codeunitCount * 2; 
    var bytes = new byte[byteCount];
    fixed(void* pRaw = s)
    {
        Marshal.Copy((IntPtr)pRaw, bytes, 0, byteCount);
    }
    return bytes;
}

正如@CodesInChaus所指出的，结果取决于机器的端序。但问题的作者并不关心这一点。

2013-12-02 04:43:48

其他回答

这取决于字符串的编码（ASCII、UTF-8…）。

例如：

byte[] b1 = System.Text.Encoding.UTF8.GetBytes (myString);
byte[] b2 = System.Text.Encoding.ASCII.GetBytes (myString);

编码重要的一个小例子：

string pi = "\u03a0";
byte[] ascii = System.Text.Encoding.ASCII.GetBytes (pi);
byte[] utf8 = System.Text.Encoding.UTF8.GetBytes (pi);

Console.WriteLine (ascii.Length); //Will print 1
Console.WriteLine (utf8.Length); //Will print 2
Console.WriteLine (System.Text.Encoding.ASCII.GetString (ascii)); //Will print '?'

ASCII根本无法处理特殊字符。

在内部，.NET框架使用UTF-16表示字符串，因此，如果您只想获得.NET使用的确切字节，请使用System.Text.Encoding.Unicode.GetBytes（…）。

有关详细信息，请参阅.NET Framework（MSDN）中的字符编码。

2009-01-23 13:43:51

嗯，我读过所有的答案，它们都是关于使用编码或关于删除未配对代理的序列化。

例如，如果字符串来自SQL Server，它是从存储例如密码哈希的字节数组构建的，这就很糟糕了。如果我们从中删除任何内容，它将存储一个无效的哈希，如果我们想将其存储在XML中，我们希望保持它的完整性（因为XML编写器会在它找到的任何未配对代理上删除一个异常）。

所以我在这种情况下使用了字节数组的Base64编码，但是在互联网上，只有一种解决方案是C#，而且它有bug，而且只有一种方法，所以我已经修复了bug并编写了返回过程。给你，未来的谷歌人：

public static byte[] StringToBytes(string str)
{
    byte[] data = new byte[str.Length * 2];
    for (int i = 0; i < str.Length; ++i)
    {
        char ch = str[i];
        data[i * 2] = (byte)(ch & 0xFF);
        data[i * 2 + 1] = (byte)((ch & 0xFF00) >> 8);
    }

    return data;
}

public static string StringFromBytes(byte[] arr)
{
    char[] ch = new char[arr.Length / 2];
    for (int i = 0; i < ch.Length; ++i)
    {
        ch[i] = (char)((int)arr[i * 2] + (((int)arr[i * 2 + 1]) << 8));
    }
    return new String(ch);
}

2011-03-10 08:57:30

bytes[] buffer = UnicodeEncoding.UTF8.GetBytes(string something); //for converting to UTF then get its bytes

bytes[] buffer = ASCIIEncoding.ASCII.GetBytes(string something); //for converting to ascii then get its bytes

2012-01-02 11:07:00

OP的问题：“如何在.NET（C#）中将字符串转换为字节数组？”

您可以使用以下代码：

static byte[] ConvertString (string s) {
    return new byte[0];
}

作为一个好处，编码无关紧要！哦，等等，这是一个ecoding。。。它只是微不足道的，而且损耗很大。

2013-09-27 23:26:41

公认的答案非常非常复杂。为此，请使用包含的.NET类：

const string data = "A string with international characters: Norwegian: ÆØÅæøå, Chinese: 喂 谢谢";
var bytes = System.Text.Encoding.UTF8.GetBytes(data);
var decoded = System.Text.Encoding.UTF8.GetString(bytes);

如果你不需要。。。

2012-04-30 07:26:07

如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

推荐文章

最新文章

标签