区块链 > 区块链技术 > 详解基础设施层

AI+Web3未来发展之路:基础设施篇

2024-03-22 11:44:18 佚名
简介AI+Web3是当下最热门的两个技术主题的碰撞,近期也出现了一批该主题的项目,凸显了市场对这个主题的关注和期待,本文是Future3 Campus AI+Web3 产业研究报告第二篇,详解基础设施层的发展潜力、叙事逻辑和代表性头部项目

本文是Future3 Campus AI+Web3 产业研究报告第二篇,详解基础设施层的发展潜力、叙事逻辑和代表性头部项目。第一篇:AI+Web3 未来发展之路:产业图景和叙事逻辑

基础设施是AI发展的确定性成长方向

爆发增长的 AI 算力需求

近年来,算力需求快速增长,尤其是在 LLM 大模型面世后,AI 算力需求引爆了高性能算力市场。OpenAI 数据显示,自 2012 年以来,用于训练最大 AI 模型的计算用量呈指数级增长,平均每 3-4 个月翻倍,其增长速度大大超过了摩尔定律。AI 应用的需求增长导致了对计算硬件的需求快速增加,预计到 2025 年,AI 应用对计算硬件的需求将增长约 10% 到 15%。

受 AI 算力需求影响,GPU 硬件厂商英伟达的数据中心收入持续增长,23 年 Q2 的数据中心收入达到 $10.32B,比 23 年 Q1 增长 141%,比去年同期增长 171%。2024 财年第四季度中数据中心业务占据 83% 以上营收,同步增长 409%,其中 40% 用于大模型的推理场景,显示出对于高性能算力的强大需求。

同时需要海量数据也对存储和硬件内存提出了要求,尤其是在模型训练阶段,需要大量的参数输入,需要存储大量数据。在 AI 服务器中应用的存储芯片主要包括:高带宽存储器 (HBM)、DRAM 和 SSD,针对 AI 服务器的工作场景需要提供更大的容量、更高的性能、更低的延迟和更高的响应速度。根据美光测算, AI 服务器中 DRAM 数量是传统服务器的 8 倍,NAND 是传统的 3 倍。

供需失衡推动高昂的算力成本

通常来说,算力主要应用在 AI 模型的训练、微调和推测阶段,尤其是在训练微调阶段,由于更大的数据参数输入和计算量,同时对并行计算的互联性要求更高,因此需要更性能、互联能力更强的 GPU 硬件,通常是高性能的 GPU 算力集群。随着大模型的发展,计算复杂度也直线上升,使得需要更多高端硬件来满足模型训练需求

以 GPT3 为例,按 1300 万独立用户访问的情况来说,对应的芯片需求是 3 万多片 A100GPU。那么初始投入成本将达到惊人的 8 亿美元,每日模型推理费用预估费用 70 万美元。

同时,据行业报道,2023 年第四季度,NVIDIA GPU 供应量在全球范围内都被严格限制,导致全球市场都出现了明显的供不应求。英伟达产能受限于台积电、HBM、CoWos 封装等产能,H100 的「严重缺货问题」至少会持续到 2024 年底。

因此高端 GPU 的需求上升和供应受阻两方面推动了当前 GPU 等硬件的高昂价格,尤其是类似英伟达这种占据产业链底层核心的公司,通过龙头垄断还能进一步获得价值红利。例如英伟达的 H100 AI 加速卡的物料成本约为 3000 美元,而在 2023 年中售价已经达到了 3.5 万美元左右,甚至在 eBay 上卖出了超过 4w 美元的价格。

AI 基础设施占据产业链核心价值增长

Grand View Research 的报告显示,全球云 AI 市场的规模在 2023 年估计为 626.3 亿美元,并预计到 2030 年将增长到 6476 亿美元,年复合增长率为 39.6%。这一数据反映了云 AI 服务的增长潜力及其在整个 AI 产业链中所占的重要份额。

根据 a16z 的估算,AIGC 市场的大量资金最终流向了基础设施公司。平均而言,应用程序公司将大约 20-40% 的收入用于推理和针对每个客户的微调。这通常直接支付给计算实例的云提供商或第三方模型提供商——反过来,第三方模型提供商将大约一半的收入花在云基础设施上。因此,有理由猜测当今 AIGC 总收入的 10-20% 流向了云提供商。

同时,更大一部分的算力需求在于大型 AI 模型的训练,例如各类 LLM 大模型,尤其是对于模型初创公司,80-90% 的成本都用于 AI 算力使用。综合来看,AI 计算基础设施(包括云计算和硬件)预计占据市场初期 50% 以上的价值

去中心化 AI 计算

如上文所述,当前中心化 AI 计算的成本高企,很重要的一个原因是 AI 训练对高性能基础设施的需求增长。但是实际上市场上大量仍然存在大量的算力面临闲置的问题,出现了一部分的供需错配。其中主要原因是:

面对以上问题,设计更加符合 AI 工作的高性能芯片或者专用 ASIC 芯片是目前很多开发者和大型企业在探索的方向,另一个角度则是综合利用现有的计算资源,建设分布式算力网络,通过算力的租赁、共享、调度等来降低算力的成本。此外,目前市场有很多闲置的消费级 GPU 和 CPU,单体算力不强,但是在某些场景或者与现有高性能芯片一起配置也能过满足现有的计算需求,最重要的是供应充足,通过分布式网络调度能够进一步降低成本。

因此分布式算力成为了 AI 基础设施发展的一个方向。同时因为 Web3 与分布式具有相似的概念,去中心化算力网络也是当前 Web3+AI 基础设施的主要应用方向。目前市场上的 Web3 去中心化算力平台普遍能够提供相比较中心化云算力低 80%-90% 的价格。

存储虽然也为 AI 最重要的基础设施,但存储对大规模、易用性、低延迟等要求使得目前中心化的存储具有更大的优势。而分布式计算网络由于其显著的成本优势,则存在更加切实的市场,能够更大地享受到 AI 市场爆发带来的红利。

AI+Web3 基础设施项目的叙事逻辑

我们看到,分布式 AI 基础设施需求强,且具有长期增长潜力,因此是易于叙事和受到资本青睐的领域。目前 AI+Web3 产业的基础设施层的主要项目基本是以去中心化的计算网络为主要的叙事,以低成本为主要优势,以代币激励为主要方式扩展网络,服务 AI+Web3 客户为主要目标。主要包括两个层面:

1.比较纯粹的去中心化云计算资源的共享和租赁平台:有很多早期的 AI 项目,例如 Render Network、Akash Network 等;

2.提供去中心化计算 +ML 工作流服务:有很多最近获得高额融资的新兴项目,例如 Gensyn, io.net, Ritual 等;

通过提供比中心化云计算服务更优惠的价格,但配套和使用体验比较相近的服务,这类项目获得了很多头部资本的认可,但同时技术复杂度也更高,目前基本在叙事和开发阶段,还未有完善上线的产品。

代表项目

Render Network

Render Network 是一个基于区块链的全球渲染平台,提供分布式的 GPU,为创作者提供更低成本,更高速的 3D 渲染服务,在创作者确认过渲染结果后,再由区块链网络向节点发送代币奖励。平台提供分布式 GPU 的调度和分配网络,按照节点的用量情况、声誉等进行作业的分配,最大化地提高计算的效率,减少资源闲置,降低成本。

Render Network 的代币 RNDR 是平台中的支付型代币,创作者可以使用 RNDR 支付渲染服务,服务商则通过提供算力完成渲染作业而获得 RNDR 奖励。渲染服务的价格会根据当前网络中的用量情况等进行动态调节。

渲染是分布式算力架构运用相对合适且成熟的场景,因为可以将渲染任务分为多个子任务高度并行地执行,互相之前不需要过多的通信和交互,所以可以最大化避免分布式算力架构的弊端,同时充分利用广泛的 GPU 节点网络,有效降低成本。

因此,Render Network 的用户需求也较为可观,自 2017 年创立以来,Render Network 用户在网络上渲染了超过 1600 万帧和近 50 万个场景,且渲染帧数作业和活跃节点数都呈增长的趋势。此外,Render Network 于 2023 Q1 也推出了原生集成 Stability AI 工具集,用户可以的该项功能引入 Stable Diffusion 作业,业务也不再局限于渲染作业而向 AI 领域扩展。

Gensyn.ai

Gensyn 是一个用于深度学习计算的全球性的超级计算集群网络,基于波卡的 L1 协议,2023 年获得了由 a16z 领投的 4300 万美元 A 轮融资。

Gensyn 的叙事架构中不仅包含了基础设施的分布式算力集群,还包括上层的验证体系,证明在链外执行的大规模计算是按照链的要求执行的,即用区块链来验证,从而构建一个无需信任的机器学习网络。

分布式算力方面,Gensyn 能够支持从多余容量的数据中心到带有潜在 GPU 的个人笔记本电脑,它将这些设备连接成一个单一的虚拟集群,开发者可以随需访问和点对点使用。Gensyn 将创建一个价格由市场动态决定且向所有参与者开放的市场,可以使 ML 计算的单位成本达到公平均衡。

而验证体系是 Gensyn 更重要的概念,它希望网络能够验证机器学习任务是否按照请求正确完成,它创新了一种更加高效的验证方法,包含了概率性学习证明、基于图的精准定位协议和 Truebit 式激励游戏三大核心技术点,相比传统区块链中的重复验证方法更加高效。其网络中的参与者包括提交者、求解者、验证者和举报者,来完成整个验证流程。

按照 Gensyn 协议在白皮书中的综合测试数据来看,目前其显著优势是:

但同时,分布式算力相比较本地训练,由于通讯和网络问题,不可避免地增加了训练时间,测试数据中,Gensyn 协议为模型训练增加了约 46% 的时间开销

Akash network

Akash network 是一个分布式的云计算平台,结合不同的技术组件,让用户可以在去中心化的云环境中高效、灵活地部署和管理应用程序,简单地说,它提供用户租赁分布式计算资源。

Akash 的底层是分布在全球的多个基础设施服务商,提供 CPU、GPU、内存、存储资源,并通过上层的 Kubernetes 集群将资源提供给用户进行租赁。而用户可以将应用程序部署为 Docker 容器,来使用更低成本的基础设施服务。同时,Akash 采用「反向拍卖」的方式,使得资源价格进一步降低。按照 Akash 官网的估算,其平台的服务成本比中心化服务器降低约 80% 以上。

io.net

io.net 是一个去中心化计算网络,连接全球分布式的 GPU,为 AI 的模型训练和推理等提供算力支持。io.net 刚刚完成了 3000 万美元的 A 轮融资,估值达到了 10 亿美元。

io.net 相比 Render、Akash 等,是一个更加健全、扩展性更强的去中心化计算网络,接入多个层面的开发者工具,其特点包括:

在价格上,io.net 官网预计其价格将比中心化云计算服务降低约 90%。

此外,io.net 的代币 IO coin 未来主要用于生态内服务的支付和奖励,或者需求方也可以用类似 Helium 的模式将 IO coin 燃烧换成稳定币「IOSD 积分」来进行支付。

本站提醒:投资有风险,入市须谨慎,本内容不作为投资理财建议。

相关文章