如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

如何在.NET（C#）中将字符串转换为字节[]而不手动指定特定编码？

我要加密字符串。我可以在不进行转换的情况下对其进行加密，但我仍然想知道为什么编码会在这里发挥作用。

此外，为什么还要考虑编码？我不能简单地获取字符串存储的字节数吗？为什么依赖字符编码？

当前回答

// C# to convert a string to a byte array.
public static byte[] StrToByteArray(string str)
{
    System.Text.ASCIIEncoding  encoding=new System.Text.ASCIIEncoding();
    return encoding.GetBytes(str);
}


// C# to convert a byte array to a string.
byte [] dBytes = ...
string str;
System.Text.ASCIIEncoding enc = new System.Text.ASCIIEncoding();
str = enc.GetString(dBytes);

2009-01-23 13:43:58

其他回答

为了证明Mehrrad的声音回答有效，他的方法甚至可以持久化未配对的代理字符（其中许多人对我的答案持反对态度，但每个人都有同样的错误，例如System.Text.Encoding.UTF8.GetBytes、System.Text.Encding.Unicode.GetBytes；例如，这些编码方法不能持久化高代理字符d800，而这些方法只是用值fffd替换高代理字符）：

using System;

class Program
{     
    static void Main(string[] args)
    {
        string t = "爱虫";            
        string s = "Test\ud800Test"; 

        byte[] dumpToBytes = GetBytes(s);
        string getItBack = GetString(dumpToBytes);

        foreach (char item in getItBack)
        {
            Console.WriteLine("{0} {1}", item, ((ushort)item).ToString("x"));
        }    
    }

    static byte[] GetBytes(string str)
    {
        byte[] bytes = new byte[str.Length * sizeof(char)];
        System.Buffer.BlockCopy(str.ToCharArray(), 0, bytes, 0, bytes.Length);
        return bytes;
    }

    static string GetString(byte[] bytes)
    {
        char[] chars = new char[bytes.Length / sizeof(char)];
        System.Buffer.BlockCopy(bytes, 0, chars, 0, bytes.Length);
        return new string(chars);
    }        
}

输出：

T 54
e 65
s 73
t 74
? d800
T 54
e 65
s 73
t 74

尝试使用System.Text.Encoding.UTF8.GetBytes或System.Text.Encding.Unicode.GetBytes，它们只会用值fffd替换高代理项字符

每当这个问题发生变化时，我仍然在想一个序列化程序（无论是来自Microsoft还是来自第三方组件），它可以持久化字符串，即使它包含不成对的代理字符；我时不时地在谷歌上搜索这个：序列化不成对的代理角色.NET。这不会让我失眠，但偶尔有人评论我的答案，说它有缺陷，但他们的答案在不成对的替代角色方面同样有缺陷，这让我很烦。

Darn，Microsoft应该在BinaryFormatter中使用System.Buffer.BlockCopyツ

谢谢！

2012-04-30 12:50:32

BinaryFormatter bf = new BinaryFormatter();
byte[] bytes;
MemoryStream ms = new MemoryStream();

string orig = "喂 Hello 谢谢 Thank You";
bf.Serialize(ms, orig);
ms.Seek(0, 0);
bytes = ms.ToArray();

MessageBox.Show("Original bytes Length: " + bytes.Length.ToString());

MessageBox.Show("Original string Length: " + orig.Length.ToString());

for (int i = 0; i < bytes.Length; ++i) bytes[i] ^= 168; // pseudo encrypt
for (int i = 0; i < bytes.Length; ++i) bytes[i] ^= 168; // pseudo decrypt

BinaryFormatter bfx = new BinaryFormatter();
MemoryStream msx = new MemoryStream();            
msx.Write(bytes, 0, bytes.Length);
msx.Seek(0, 0);
string sx = (string)bfx.Deserialize(msx);

MessageBox.Show("Still intact :" + sx);

MessageBox.Show("Deserialize string Length(still intact): " 
    + sx.Length.ToString());

BinaryFormatter bfy = new BinaryFormatter();
MemoryStream msy = new MemoryStream();
bfy.Serialize(msy, sx);
msy.Seek(0, 0);
byte[] bytesy = msy.ToArray();

MessageBox.Show("Deserialize bytes Length(still intact): " 
   + bytesy.Length.ToString());

2009-01-23 16:36:07

当被问及您打算如何处理字节时，您回答：

我将对它进行加密。我可以在不进行转换的情况下对其进行加密，但我仍然想知道为什么编码会在这里发挥作用。给我字节就是我说的。

无论您是否打算通过网络发送加密数据，稍后将其加载回内存，或将其流式传输到另一个进程，您显然都打算在某个时刻对其进行解密。在这种情况下，答案是您正在定义通信协议。通信协议不应根据编程语言及其相关运行时的实现细节来定义。这有几个原因：

您可能需要与以不同语言或运行时实现的流程进行通信。（例如，这可能包括在另一台机器上运行的服务器或将字符串发送到JavaScript浏览器客户端。）该程序将来可以用不同的语言或运行时重新实现。.NET实现可能会更改字符串的内部表示形式。您可能会觉得这听起来有些牵强，但这实际上发生在Java9中，以减少内存使用。.NET没有理由不能效仿。Skeet表明，UTF-16在今天可能不是最佳的，因为表情符号和其他Unicode块也需要2个以上的字节来表示，这增加了内部表示在未来可能发生变化的可能性。

为了进行通信（无论是与完全不同的进程还是将来与相同的程序），您需要严格定义协议，以最大限度地减少使用协议或意外创建错误的难度。依赖于.NET的内部表示并不是一个严格的、明确的，甚至不能保证是一致的定义。标准编码是一个严格的定义，将来不会让您失望。

换句话说，如果不指定编码，就无法满足一致性要求。

如果您发现由于.NET在内部使用了UTF-16或出于其他原因，您的进程的性能明显更好，那么您当然可以选择直接使用UTF-16，但您需要显式选择编码，并在代码中显式执行这些转换，而不是依赖于.NET的内部实现。

因此，选择一种编码并使用它：

using System.Text;

// ...

Encoding.Unicode.GetBytes("abc"); # UTF-16 little endian
Encoding.UTF8.GetBytes("abc")

正如您所看到的，与实现您自己的读写器方法相比，仅使用内置的编码对象实际上也是更少的代码。

2019-09-11 04:21:53

我不确定，但我认为字符串将其信息存储为一个Chars数组，这对字节来说效率很低。具体来说，Char的定义是“表示Unicode字符”。

以以下示例为例：

String str = "asdf éß";
String str2 = "asdf gh";
EncodingInfo[] info =  Encoding.GetEncodings();
foreach (EncodingInfo enc in info)
{
    System.Console.WriteLine(enc.Name + " - " 
      + enc.GetEncoding().GetByteCount(str)
      + enc.GetEncoding().GetByteCount(str2));
}

请注意，在这两种情况下，Unicode答案都是14个字节，而UTF-8答案第一种只有9个字节，第二种只有7个字节。

因此，如果您只想要字符串所使用的字节，只需使用Encoding.Unicode，但存储空间会很低。

2009-01-23 14:34:03

如何在.NET（C#）中将字符串转换为字节[]而不手动指定特定编码？

NET中的字符串将文本表示为UTF-16代码单元的序列，因此字节已经在UTF-16中的内存中编码。

Mehrad的回答

您可以使用Mehrad的答案，但它实际上使用了编码，因为字符是UTF-16。它调用ToCharArray，通过查看源代码创建一个char[]并将内存直接复制到它。然后，它将数据复制到同样分配的字节数组中。因此，在后台，它复制了两次底层字节，并分配了一个在调用后不使用的字符数组。

Tom Blodget的回答

Tom Blodget的答案比Mehrad快20-30%，因为它跳过了分配一个字符数组并将字节复制到其中的中间步骤，但它需要使用/safe选项进行编译。如果你绝对不想使用编码，我认为这是正确的方法。如果将加密登录放在固定块中，甚至不需要分配单独的字节数组并将字节复制到其中。

此外，为什么要考虑编码？我不能简单地获取字符串存储的字节数吗？为什么依赖字符编码？

因为这是正确的方法。字符串是一个抽象。

如果“字符串”包含无效字符，使用编码可能会给您带来麻烦，但这不应该发生。如果将数据输入到字符串中包含无效字符，则说明操作错误。您可能应该首先使用字节数组或Base64编码。

如果使用System.Text.Encoding.Unicode，代码将更具弹性。您不必担心运行代码的系统的端序。您不必担忧下一版本的CLR是否会使用不同的内部字符编码。

我认为问题不在于你为什么要担心编码，而是你为什么要忽略它而使用其他东西。编码旨在表示字节序列中字符串的抽象。System.Text.Encoding.Unicode将为您提供一个小端字节顺序编码，并将在现在和将来的每个系统上执行相同的编码。

2018-07-02 20:51:49

如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

推荐文章

最新文章

标签