C#教程

关注公众号 jb51net

关闭
首页 > 软件编程 > C#教程 > C# System.Text.Encoding使用

C# System.Text.Encoding使用小结

作者:鲤籽鲲

System.Text.Encoding类及其派生类提供了丰富的功能,帮助开发者实现不同字符编码之间的转换,本文就来介绍一下C# System.Text.Encoding使用,感兴趣的可以了解一下

前言

在C#编程中,处理字符串和字节数组之间的转换是一个常见的任务。System.Text.Encoding类及其派生类提供了丰富的功能,帮助开发者实现不同字符编码之间的转换。本文将详细讲解System.Text.Encoding类的使用方法,包括常用编码的介绍、编码和解码的基本操作、以及一些高级用法。

一、基础概念

1. 什么是字符编码?

字符编码是将字符(如字母、数字、符号等)转换为字节序列的规则。不同的字符编码标准(如ASCII、UTF-8、UTF-16等)定义了不同的映射规则。在计算机中,字符编码用于存储、传输和显示文本数据。

2. 常见的字符编码

常见的字符编码包括:

GB2312/GBK/GB18030:中文编码(需通过 Encoding.GetEncoding 获取)。

3. 编码与解码

4.System.Text.Encoding类概述

System.Text.Encoding类是.NET框架中用于处理字符编码的基类(核心类)。它提供了将字符串转换为字节数组(编码)和将字节数组转换为字符串(解码)的方法。Encoding类本身是抽象的,不能直接实例化,但提供了多个派生类,每个派生类对应一种特定的字符编码。

5.Encoding类核心功能

6. 常用方法与属性

1)核心方法

方法名作用
GetBytes(string)将字符串转换为字节数组(编码过程)。
GetString(byte[])将字节数组转换为字符串(解码过程)。
Convert(Encoding, Encoding, byte[])将字节数组从一种编码转换为另一种编码
(如 UTF-8 转 UTF-16)。

2)静态属性

属性名对应编码类型及代码页适用场景
Encoding.ASCIIASCII 编码(代码页 20127)仅支持英文字符(0x00-0x7F)。
Encoding.UTF8UTF-8 编码(代码页 65001)国际化文本(支持所有 Unicode 字符)。
Encoding.UnicodeUTF-16 小端序(代码页 1200)内部存储(如 .NET 的 char 类型)。
Encoding.UTF32UTF-32 小端序(代码页 12000)高精度编码(占用更多内存)。
Encoding.Default当前系统默认 ANSI 编码(如 GBK、CP1252)兼容性场景(可能因系统而异)。

3)常用字符编码类

以下是一些常用的字符编码类及其对应的编码标准:

字符编码类对应的编码标准
ASCIIEncoding对应ASCII编码,支持7位字符。
UTF7Encoding对应UTF-7编码,一种基于7位的Unicode编码。
UTF8Encoding对应UTF-8编码,广泛用于互联网的多字节Unicode编码。
UnicodeEncoding对应UTF-16编码,使用两个字节表示大多数字符。
ASCIIEncoding对应ASCII编码,支持7位字符。

二、使用

1. 获取编码实例

using System.Text;

// 获取 UTF-8 编码实例
Encoding utf8Encoding = Encoding.UTF8;

// 获取 ASCII 编码实例
Encoding asciiEncoding = Encoding.ASCII;

// 获取 Unicode 编码实例
Encoding unicodeEncoding = Encoding.Unicode;

// 通过GetEncoding 获取 GB2312 编码实例
Encoding gb2312 = Encoding.GetEncoding("GB2312");

// 获取 GBK 编码(代码页 936)
Encoding gbk = Encoding.GetEncoding(936);

// 列出所有支持的编码
foreach (EncodingInfo ei in Encoding.GetEncodings())
{
    Console.WriteLine($"名称: {ei.Name}, 描述: {ei.DisplayName}");
}

2. 获取编码信息

static void Main(string[] args)
{
    // 获取 UTF-8 编码实例
    Encoding utf8Encoding = Encoding.UTF8;          
    Console.WriteLine(utf8Encoding.HeaderName);     //输出:utf-8
    Console.WriteLine(utf8Encoding.EncodingName);   //输出:Unicode (UTF-8)
    Console.WriteLine(utf8Encoding.BodyName);       //输出:utf-8
    Console.WriteLine(utf8Encoding.WebName);        //输出:utf-8
    // 获取编码的代码页标识符
    Console.WriteLine(utf8Encoding.CodePage);       //输出:65001
}

3. 编码和解码操作

注意:若使用 Encoding.Default(系统默认编码,如中文环境下的 GB2312),可能导致跨平台乱码,推荐显式指定编码。

1)编码:将字符串转换为字节数组

internal class Program
{
    static void Main(string[] args)
    {
        string text = "Hello, World!";
        // 使用UTF-8编码
        byte[] utf8Bytes = Encoding.UTF8.GetBytes(text);

        // 使用UTF-16编码
        byte[] utf16Bytes = Encoding.Unicode.GetBytes(text);

        // 使用ASCII编码
        byte[] asciiBytes = Encoding.ASCII.GetBytes(text);

        Console.WriteLine("UTF-8 Encoded Bytes: " + BitConverter.ToString(utf8Bytes));
        Console.WriteLine("UTF-16 Encoded Bytes: " + BitConverter.ToString(utf16Bytes));
        Console.WriteLine("ASCII Encoded Bytes: " + BitConverter.ToString(asciiBytes));
    }
}

输出:

UTF-8 Encoded Bytes: 48-65-6C-6C-6F-2C-20-57-6F-72-6C-64-21
UTF-16 Encoded Bytes: 48-00-65-00-6C-00-6C-00-6F-00-2C-00-20-00-57-00-6F-00-72-00-6C-00-64-00-21-00
ASCII Encoded Bytes: 48-65-6C-6C-6F-2C-20-57-6F-72-6C-64-21

2)解码:将字节数组转换为字符串

// 使用 UTF-8 解码
string decodedTextUTF8 = utf8Encoding.GetString(utf8Bytes);	//输出:Hello, World!

// 使用 ASCII 解码
string decodedTextASCII = asciiEncoding.GetString(asciiBytes);//输出:Hello, World!

// 使用 Unicode 解码
string decodedTextUnicode = unicodeEncoding.GetString(unicodeBytes);//输出:Hello, World!

4. 编码转换操作

有时候,我们需要将一个编码的字节数组转换为另一个编码的字节数组。这可以通过Encoding.Convert(源编码,目标编码,源字节数组)方法实现:

using System;
using System.Text;
class Program
{
    static void Main()
    {
        string originalText = "Hello, World!";
        // 将字符串编码为UTF-8
        Encoding utf8 = Encoding.UTF8;
        byte[] utf8Bytes = utf8.GetBytes(originalText);
        
        Encoding utf16 = Encoding.Unicode;
        
        // 将UTF-8编码的字节数组转换为UTF-16
        byte[] utf16Bytes = Encoding.Convert(utf8, utf16, utf8Bytes);
        
        // 解码UTF-16字节数组
        string convertedText = utf16.GetString(utf16Bytes);
        Console.WriteLine("Converted Text: " + convertedText);
    }
}

5. 实际应用示例

1)示例1:编码和解码

以下是一个完整的示例,展示如何在 C# 中使用 System.Text.Encoding 类进行文本编码和解码操作。

using System;
using System.Text;

namespace EncodingExample
{
    class Program
    {
        static void Main(string[] args)
        {
            string text = "Hello, World! 你好,世界!";

            // 获取不同的编码实例
            Encoding utf8Encoding = Encoding.UTF8;
            Encoding asciiEncoding = Encoding.ASCII;
            Encoding unicodeEncoding = Encoding.Unicode;

            // 将字符串编码为字节数组
            byte[] utf8Bytes = utf8Encoding.GetBytes(text);
            byte[] asciiBytes = asciiEncoding.GetBytes(text);
            byte[] unicodeBytes = unicodeEncoding.GetBytes(text);

            // 输出字节数组
            Console.WriteLine("UTF-8 编码字节数组:");
            foreach (byte b in utf8Bytes)
            {
                Console.Write(b + " ");
            }
            Console.WriteLine();

            Console.WriteLine("ASCII 编码字节数组:");
            foreach (byte b in asciiBytes)
            {
                Console.Write(b + " ");
            }
            Console.WriteLine();

            Console.WriteLine("Unicode 编码字节数组:");
            foreach (byte b in unicodeBytes)
            {
                Console.Write(b + " ");
            }
            Console.WriteLine();

            // 将字节数组解码为字符串
            string decodedTextUTF8 = utf8Encoding.GetString(utf8Bytes);
            string decodedTextASCII = asciiEncoding.GetString(asciiBytes);
            string decodedTextUnicode = unicodeEncoding.GetString(unicodeBytes);

            // 输出解码后的字符串
            Console.WriteLine("UTF-8 解码字符串: " + decodedTextUTF8);
            Console.WriteLine("ASCII 解码字符串: " + decodedTextASCII);
            Console.WriteLine("Unicode 解码字符串: " + decodedTextUnicode);
        }
    }
}

2)示例2:编码转换

using System;
using System.Text;

public class EncodingDemo 
{
    public static void Main() 
    {
        // 示例:UTF-8 转 GBK
        string text = "编码转换测试";
        Encoding utf8 = Encoding.UTF8;
        Encoding gbk = Encoding.GetEncoding("GBK");

        byte[] utfBytes = utf8.GetBytes(text);
        byte[] gbkBytes = Encoding.Convert(utf8, gbk, utfBytes);

        string decodedText = gbk.GetString(gbkBytes);
        Console.WriteLine($"解码结果:{decodedText}");
    }
}

三、高级用法

1. 实现自定义编码

虽然.NET提供了多种内置编码,但有时我们可能需要自定义编码。这可以通过继承Encoding类并重写其方法来实现。

2. 文件编码处理

读取文件时自动检测编码(需结合 BOM 判断):

public static Encoding DetectFileEncoding(string path) 
{
    byte[] bom = new byte[4];
    using (var file = new FileStream(path, FileMode.Open)) 
    {
        file.Read(bom, 0, 4);
    }
    if (bom[0] == 0xEF && bom[1] == 0xBB && bom[2] == 0xBF) return Encoding.UTF8;
    if (bom[0] == 0xFF && bom[1] == 0xFE) return Encoding.Unicode;
    return Encoding.Default; // 无 BOM 时回退到默认编码
}

3. 网络通信编码

发送数据前统一编码格式(推荐 UTF-8):

// 发送端
string message = "传输数据";
byte[] buffer = Encoding.UTF8.GetBytes(message);
socket.Send(buffer);

// 接收端
byte[] buffer = new byte[1024];
int bytesRead = socket.Receive(buffer);
string received = Encoding.UTF8.GetString(buffer, 0, bytesRead);

四、注意事项

1. 编码选择

在实际应用中,应根据具体需求选择合适的编码方式。例如,处理中文文本时,UTF-8 是一个不错的选择。

2. 编码兼容性

读写文本时使用相同的编码(如 UTF-8)。

在进行编码和解码操作时,必须确保使用相同的编码方式,否则可能会导致数据丢失或乱码。

internal class Program
{
    static void Main(string[] args)
    {
        string text = "Hello, 张三! ";
        // 使用UTF-8编码
        byte[] utf8Bytes = Encoding.UTF8.GetBytes(text);

        // 但是使用 ASCII 解码,会导致乱码
        string decodedTextUTF8 = Encoding.ASCII.GetString(utf8Bytes);
        Console.WriteLine($"{decodedTextUTF8}");    //输出:Hello, ??????!
    }
}

3. 性能考虑

不同的编码方式在性能上可能会有所不同,应根据实际情况进行优化。

4. 跨平台开发

5. 处理旧系统的代码页编码

结语

到此这篇关于C# System.Text.Encoding使用小结的文章就介绍到这了,更多相关C# System.Text.Encoding使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

参考资料:

您可能感兴趣的文章:
阅读全文