公众号记得️,第一时间看推送不会错过。
来源 :内容翻译自nextplatform,谢谢。
在所有超大规模计算提供商和云构建商中,我们一直期望 Meta Platforms能够设计和制造自己的 CPU 和 XPU 加速器计算引擎。原因很简单。云平台必须购买 X86 CPU 和 NvidiaGPU,因为这些是企业和初创公司想要租用的“铁杆”。如今,许多人也想租用基于 Neoverse IP 模块的 Arm CPU,但这并非因为他们喜欢 Arm 软件,而是因为他们喜欢云平台声称这些自主研发的 CPU能带来 30% 到 40% 的性价比提升。
Meta Platforms 不是云,因此,它不必在企业基础设施租户的需求与控制自身基础设施命运并开发专门针对其 Facebook、WhatsApp、Instagram、Messenger和 Threads 社交媒体应用程序的 35 亿用户的需求的计算引擎(实际上是交换和存储)的愿望之间取得平衡。
其中约 85% 的用户使用 Facebook,因此 Meta Platforms 仍然是一家单一产品公司,但至少有部分用户正在从该用户群扩展到其其他应用。但这并不一定意味着 Meta Platforms 的处境轻松。这些应用类型各异,该公司热衷于开发自己的人工智能来增强和驱动这些应用,就像地球上其他所有公司现在都有这样的愿望一样。
鉴于 Meta Platforms 在研发和资本支出上投入的巨额资金——2025 年,研发支出约为 500 亿美元,资本支出约为 660 亿至 720 亿美元,而收入约为 1900 亿至 2000 亿美元,因此,按中间值计算,这大约占总收入的 61% 左右——即使将基础设施成本削减几个点,也会对其盈利能力产生巨大影响。
因此不难看出为什么 Meta Platforms 至少想要设计自己的 CPU 和 XPU,并且依靠互连 ASIC制造商(我们在这个类别中包括交换、路由和内存互连)来做它需要做的事情,并威胁说如果他们不这样做,就设计自己的交换机和内存结构互连。
Meta Platforms 想要跳过可授权但闭源的 Arm 架构,直接转向开源但仍有待完善且尚未成为主流的 RISC-V 架构及其未来的计算引擎,这已不是什么秘密。Meta在开发定制计算引擎方面也遇到了一些问题,而且至今尚未推出通用 CPU 或 AI 训练 XPU,这也不是什么秘密。这显然是一个问题。
该公司于 2020 年开始定制芯片工作,并于 2023 年 5 月推出了 Meta 训练和推理加速器 (MTIA) v1,该名称并不恰当,因为它可以进行推理但不能进行训练。2024年 4 月,大幅改进的 MTIA v2 发布,该芯片可以更好地进行推理,但仍然无法进行训练。这两款芯片均使用基于 RISC-V 内核的处理元件阵列构建,具体来说是一对内核,其中一个内核执行标量工作,另一个内核具有对整数和浮点数据进行操作的矢量引擎。MTIA v1 在 Meta 数据中心服务器群中的部署适度,而对于性能更好的 MTIA v2,部署力度更大。
该公司于2025年6月在东京举行的计算机体系结构2025国际研讨会上发表了一篇论文,将其命名为MTIA 2i,其中“i”代表推理(inference)。论文声称,对于其应用中使用的某些类型的AI推理工作负载,这款芯片比在驱动Meta Platforms业务的深度学习推荐模型(DLRM)上使用Nvidia GPU,总拥有成本(TCO)降低了44%。所有这些模型(驱动公司的广告服务器)都包含数百GB到数TB的嵌入数据,这使得在GPU上运行它们的成本非常高昂。Nvidia打造Grace-Hopper和Grace-Blackwell混合处理器是有原因的——Grace CPU实际上是一个用于存储嵌入数据的内存控制器。但Meta Platforms最大的模型已经远远超出了GraceCPU的内存容量,达到其2到4倍,这是一个问题。(我们刚刚找到这篇论文,将另行深入研究。)
关键在于:Meta Platforms 遇到了一个问题。它当时正在与 Rivos(几家 RISC-V 计算引擎初创公司之一)合作,寻求 Rivos 的帮助来设计 MTIA 芯片,甚至可能设计一个与之搭配的 Meta CPU,而这家公司却突然决定向 Rivos 提出一个无法拒绝的报价。
Rivos 成立于 2021 年 5 月,对其业务发展讳莫如深,并与 Meta Platforms 建立了合作关系,据称参与了 MTIA 1i 和 MTIA 2i 计算引擎的设计(用更现代、更形象的说法)。此次合作的具体内容尚不清楚。除此之外,Rivos 还在研发自己的 RISC-VCPU 和 GPU 设计。
是的。我们说的是 GPU。
Rivos 之于 Meta Platforms,就如同 Annapurna Labs之于 Amazon Web Services:它是其未来处理器设计的基础。两者的相似之处显而易见。
Annapurna Labs 由 Billy Hrvoje、Nafea Bshara 和 Ronen Boneh 于 2011 年创立,资金来自 Walden International(英特尔CEO 陈立武)、Avigdor Willenz(Habana Labs 和 Xsight Labs 创始人)、Manuel Alba(Astera Labs 创始人)、Andy Bechtolsheim(Sun Microsystems和 Arista Networks创始人)、Arm和台积电。2012 年,AWS与 Cavium Networks(现为 Marvell旗下公司)合作完成了首批 Nitro DPU 设计,并在下一代 Nitro 处理器上与 Annapurna Labs 展开合作。2015 年,随着这项工作的进展,AWS 全力投入,决定收购 Annapurna Labs 的全部股权,因为 Annapurna Labs 已经抓住了定制计算引擎的先机,并将其扩展到 Graviton CPU 以及 TrAInium 和 Inferentia XPU。
有关 Meta Platforms 将收购 Rivos 的传闻已得到Walden International 旗下投资机构之一 Walden Catalyst 的证实,其著名创始人如下:
令人疑惑的是,英特尔为何不收购 Rivos,为开源架构和设计业务奠定基础,以补充其代工业务。不过,这又是另一个故事了……
Rivos 成立于 2021 年 9 月,创始人包括陈炳耀和 Amarjit Gill,后者是 MIPS 芯片制造商 SiByte(2000 年被博通收购)和 Power 芯片设计公司 PA Semi(2008 年被苹果收购)的联合创始人。值得注意的是,PA Semi 团队正是苹果定制 Arm 客户端芯片的开发团队。Rivos联合创始人之一叶哲宇 ( Tse-Yu Yeh)在苹果公司工作了 17 年多,从架构和验证高级工程师一路晋升为 CPU 设计高级总监。他在 Rivos 一直担任这一职务。
联合创始人普尼特·库马尔(Puneet Kumar)(见上图)曾效力于数字设备公司(Digital Equipment Corp),在康柏和惠普企业被收购期间,他曾是数字系统研究中心(Digital Systems Research Center)的技术人员,并在SiByte被博通(Broadcom)收购之前担任其系统工程软件总监。之后,库马尔转投PA Semi,负责软件架构,并在苹果公司待到2009年,之后在Agnilux担任工程副总裁。Agnilux是一家神秘的芯片初创公司,拥有许多PA Semi的前员工,于2010年被谷歌收购。库马尔离开谷歌后,出任Rivos的首席执行官。
Rivos 的另一位联合创始人Mark Hayter也经历了类似的发展历程,从 DEC 到 SiByte,再到博通、PA Semi、苹果、Agnilux 和谷歌,他之前还担任过 Rivos 的首席战略官和系统架构师。Rivos 的最后一位联合创始人是 Belli Kuttanna,在加入 Rivos 之前,他曾在德州仪器、摩托罗拉、Sun Microsystems、高通(虽然时间很短)和英特尔担任芯片设计师和架构师。
Agnilux 之于 Google 或许就如同 Annapurna Labs 之于 AWS。或者更准确地说,反之亦然,因为 Google 是先起步的,而且 Agnilux 看起来更侧重于客户端硬件,而非服务器硬件。
在Walden International的支持下,以及DellCapital Ventures 和 Matrix Capital Management 的帮助下,Rivos 成立第一天就拥有了 100 多名员工,陈志云被任命为董事长。这在一定程度上使 Rivos 能够使用先进的 EDA工具以及台积电的代工专业知识和产能。2023 年,Rivos 从苹果挖走了近 50 名工程师,这导致其与苹果发生诉讼,陈志云最终通过谈判达成和解。当时,Rivos 正在从事 CPU 设计,但陈志云建议公司专注于 AI 加速,而与 Meta 的合作就是这一转变的结果。根据 Walden 的声明,Rivos 已流片“3.1 GHz 处理器并构建了与 CUDA 兼容的软件堆栈”,但我们在互联网上找不到任何相关信息。
Rivos 在 2024 年 4 月的 A 轮融资中筹集了 2.5 亿美元,随后又进行了约 1.2 亿美元的额外融资。8 月,The Information 报道称,Rivos 正在寻求 5 亿美元的 B 轮融资,这将使其估值超过 20 亿美元。Walden 的声明称,它正准备在 2025 年初进行下一轮融资,在四处打探的过程中,Rivos 收到了一些直接收购的报价。Meta Platforms 向 Rivos 提出了报价,Rivos 及其投资者没有拒绝。很难猜测报价是多少,但如果额外投入 5 亿美元,并且融资后估值超过 20 亿美元,那么在投入 3.7 亿美元的情况下,Rivos 的报价将超过 8.5 亿美元。
关于 Rivos 是否正在开发 GPU,一直存在一些争论。从目前有限的信息来看,它正在开发 CPU 和 GPU。以下是 Rivos 网站上的基本框图:
以下是该公司在 A 轮融资时发表的评论:
Rivos 提供功耗优化的芯片,结合了高性能服务器级 RISC-V CPU 和数据并行加速器(针对大型语言模型 (LLM) 和数据分析优化的 GPGPU),可与当今的软件编程模型和机架服务器约束兼容。CPU 与并行计算紧密集成,并在 DDR DRAM 和 HBM 之间共享统一内存,这对于当今需要 TB级内存的模型和数据库而言非常理想。
这似乎毫不含糊。Rivos 似乎正在芯片或封装上构建一个 CPU-GPU 混合计算系统,类似于英伟达的 Grace-Hopper 和 Grace-Blackwell CPU-GPU“超级芯片”混合体。而且,该系统很可能基于 RISC-V 架构,更重要的是,它与英伟达的 CUDA-X 软件堆栈兼容。CUDA-X 是一种并行编程模型,结合了一系列算法、库和框架,用于处理软件从 CPU 卸载到 GPU 加速的任务。这正是英伟达拥有强大定价权的护城河。
我们认为 3.1 GHz 对于 GPU 来说已经相当高了,所以这可能是 CPU 的问题,又或者 Rivos GPU 有一些我们不知道的智能机制,让它运行速度快,发热也大。这真是让人恼火的未知因素之一。
我们所知道的是,2024 年 9 月,Rivos 选择了我们大约两周前报道过的Andes Technology为其提供 NX45 RISC-V 核心。不要将此与位于中国台湾的 Andes 美国分公司 Condor Computing 的“Cuzco”核心混淆。NX45 是一个 64 位有序 RISC-V 核心,具有两倍宽、八级指令流水线。Cuzco 核心执行乱序指令处理(就像现在大多数 RISC 芯片一样)和八倍宽、十二级流水线。这款 NX45 芯片被用作封装内控制器,就像 Nvidia 使用自主研发的 RISC-V 芯片作为其 GPU 加速器上的控制器一样。
我们强烈怀疑 Rivos CPU 和 GPU 使用了 RISC-V International 的 RVA23 规范,这是 RISC-V 设计的标准制定者,Rivos 帮助其提供矢量扩展和其他高性能功能。
我们还可以看到,CPU 和 GPU 以及 DDR 和 HBM 内存之间的内存一致性是设计的一部分,就像 Nvidia 的“超级芯片”一样,该公司称之为。
还有一件事。自 2021 年以来,Nvidia CUDA-X 软件许可协议禁止使用允许已编译 CUDA 程序(二进制文件)在非 Nvidia 硬件上运行的转换层。Nvidia 不会(也不能)限制使用源到源转换器(例如 AMD的 HIP 和 Intel 的 SYCL),这些转换器允许您重新编译 CUDA代码以在其他硬件上运行。
我们不知道 Rivos 对其“兼容 CUDA 的软件堆栈”采取了什么策略,但这种模拟机制是一个棘手的问题,最终可能会成为法律问题。此外,值得一提的是,据传Nvidia 很久以前的“丹佛计划”Arm 服务器 CPU 具有 X86 硬件模拟功能,而 Nvidia 十年后推出的 Grace Arm 服务器 CPU 显然并未添加这些功能。
Rivos 承担不起与 Nvidia 的这种争斗。但如果真到了那一步,Meta Platforms 肯定承担得起,而且一位优秀的律师可以辩称 Nvidia 正在将其软件与硬件捆绑在一起,以维持垄断地位。可恶的是,一位糟糕的律师也可能辩称,鉴于 Nvidia 在 AI 处理领域拥有明显且不受监管的垄断地位,这种情况目前依然存在。此外,如果 Meta Platforms 将这项 CUDA 仿真技术用于个人用途,并且不出售,这是否违法?同样,这是一个灰色地带。Meta Platforms 肯定会从使用该技术中获得经济利益。
我们期待看到 Meta Platforms 与 Rivos 团队的合作,以及他们的进展速度。想象一下,一个 Grace-Hopper 的 RISC-V 克隆版,软件兼容,价格却只有后者的一半……Meta Platforms 可以进军系统业务,一举成功。
版权声明
本文仅代表作者观点,不代表xx立场。
本文系作者授权xx发表,未经许可,不得转载。
最新留言