实用技巧

关注公众号 jb51net

关闭
首页 > 网络编程 > ASP.NET > 实用技巧 > .NET 9 new features-Microsoft.ML.Tokenizers

.NET 9 new features-Microsoft.ML.Tokenizers 库(文本标记化功能)

作者:Eric Zhou

文章介绍了.NET9中引入的Microsoft.ML.Tokenizers库,这是一个强大的文本标记化工具,支持多种标记化算法,适用于自然语言处理任务,库主要包含Tokenizer、Model、Bpe等类,并提供了详细的代码示例,感兴趣的朋友一起看看吧

在 .NET 9 中,微软引入了 Microsoft.ML.Tokenizers 库,为 .NET 开发者提供了强大的文本标记化功能。

一、什么是Microsoft.ML.Tokenizers

Microsoft.ML.Tokenizers 是一个用于文本标记化的库,是 .NET 生态系统中的一个强大库旨在将文本转换为令牌(tokens)

           以便在自然语言处理(NLP)任务中使用。该库支持多种标记化算法,包括字节对编码(BPE)、SentencePiece 和 WordPiece,满足不同模型和应用的需求。

二、主要应用场景

三、支持的模型和服务

Microsoft.ML.Tokenizers 针对多种流行的模型系列进行了优化,包括:

此外,该库还与其他 AI 服务集成,如 Azure、OpenAI 等,为开发者提供统一的 C# 抽象层,简化与 AI 服务的交互。

四、主要类Class

1. Tokenizer 类

Tokenizer 类充当文本处理的管道,接受原始文本输入并输出 TokenizerResult 对象。它允许设置不同的模型、预处理器和规范化器,以满足特定需求。

主要方法:

主要属性:

2. Model 类

Model 类是标记化过程中使用的模型的抽象基类,如 BPE、WordPiece 或 Unigram。具体模型(如 Bpe)继承自该类,并实现其方法。

主要方法:

3. Bpe 类

Bpe 类表示字节对编码(Byte Pair Encoding)模型,是 Model 类的具体实现之一。它用于将文本拆分为子词单元,以提高对未登录词的处理能力。

主要属性:

主要方法:

4. EnglishRoberta 类

EnglishRoberta 类是专门为英语 Roberta 模型设计的标记器模型。它继承自 Model 类,并实现了特定于 Roberta 的标记化逻辑。

主要属性:

主要方法:

5. RobertaPreTokenizer 类

RobertaPreTokenizer 类是为英语 Roberta 标记器设计的预处理器。它负责在标记化之前对文本进行初步拆分和处理。

主要方法:

6. Split 类

Split 类表示将原始字符串拆分后的子字符串。每个子字符串由一个标记表示,最终可能代表原始输入字符串的各个部分。

主要属性:

 五、示例代码

    使用 Microsoft.ML.Tokenizers 库对文本进行标记化,以适配 GPT-4 模型,可以按照以下步骤进行:

    以下是示例代码:

using System;
using Microsoft.ML.Tokenizers;
class Program
{
    static void Main(string[] args)
    {
        // 初始化 BPE 模型
        var bpe = new Bpe();
        // 加载 GPT-4 的词汇表和合并对文件
        bpe.Load("path_to_vocab.json", "path_to_merges.txt");
        // 创建标记器
        var tokenizer = new Tokenizer(bpe);
        // 输入文本
        var inputText = "这是一个用于测试的文本。";
        // 对文本进行标记化
        var encoded = tokenizer.Encode(inputText);
        // 输出标记化结果
        Console.WriteLine("Tokens:");
        foreach (var token in encoded.Tokens)
        {
            Console.WriteLine(token);
        }
        // 解码回原始文本
        var decodedText = tokenizer.Decode(encoded.Ids);
        Console.WriteLine($"Decoded Text: {decodedText}");
    }
}

到此这篇关于.NET 9 new features-Microsoft.ML.Tokenizers 库的文章就介绍到这了,更多相关.NET 9 new features-Microsoft.ML.Tokenizers 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

阅读全文