谷歌联手元宇宙平台,试图削弱英伟达的软件优势
据知情人士透露,字母表公司旗下的谷歌正推进一项新计划,旨在优化其人工智能芯片对全球最主流 AI 软件框架 PyTorch 的运行能力。此举剑指英伟达在人工智能计算市场长期以来的主导地位。
该计划是谷歌雄心勃勃的战略布局之一 ,目标是让其张量处理器(TPU)成为英伟达市场领先的图形处理器(GPU)的可靠替代品 。随着谷歌努力向投资者证明其人工智能投资已产生回报,张量处理器的销售额已成为谷歌云业务收入的关键增长引擎。
但知情人士称,仅靠硬件不足以推动市场普及。这项内部代号为 “TorchTPU” 的新计划 ,核心目标是消除阻碍张量处理器普及的关键壁垒 —— 通过实现张量处理器与 PyTorch 软件的完全兼容,并提升开发者使用友好度,满足那些已基于 PyTorch 搭建技术架构的客户需求 。部分知情人士还表示 ,谷歌正考虑将该软件的部分组件开源,以加快客户的采用进程。
知情人士指出,相较于此前为支持张量处理器运行 PyTorch 所做的尝试 ,谷歌此次对 TorchTPU 投入了更多的组织关注度、资源与战略权重。原因在于,越来越多有意采用张量处理器的企业,都将软件生态视为技术落地的瓶颈 。
PyTorch 是一个由元宇宙平台公司(Meta Platforms)深度支持的开源项目 ,也是开发者构建人工智能模型最常用的工具之一。在硅谷,极少有开发者会逐行编写能在英伟达、超威半导体或谷歌芯片上运行的代码。
相反,开发者们会依赖 PyTorch 这类工具 —— 它是一套预制代码库与框架的 *** ,可自动完成人工智能软件开发中的诸多通用任务 。PyTorch 于 2016 年首次发布 ,其发展历程与英伟达的 CUDA 软件紧密相连。部分华尔街分析师认为,CUDA 正是英伟达抵御竞争对手最强有力的 “护城河”。
英伟达的工程师耗费多年时间,确保基于 PyTorch 开发的软件能在其芯片上实现极速且高效的运行 。相比之下 ,谷歌长期以来一直让内部庞大的软件开发团队使用另一款名为 Jax 的代码框架,其张量处理器则通过 XLA 工具保障该代码的高效运行。谷歌自身的大部分人工智能软件生态与性能优化工作,均围绕 Jax 展开 ,这就导致谷歌芯片的实际应用方式,与客户的使用需求之间形成了巨大鸿沟。
谷歌云发言人未就该项目的具体细节置评,但向路透社证实 ,此举将为客户提供更多选择。
该发言人表示:“我们看到市场对张量处理器与图形处理器基础设施的需求正在激增,且增速持续加快 。我们的核心关注点是,无论开发者选择基于何种硬件开展构建工作 ,都能为他们提供所需的灵活性与规模支持。 ”
面向客户开放张量处理器
长期以来,字母表公司将其自研芯片(即张量处理器)的绝大部分产能都预留作内部使用。这一局面在 2022 年被打破 —— 当时谷歌云计算部门成功游说公司,获得了张量处理器销售业务的主导权 。这一调整大幅提升了谷歌云的张量处理器配额。随着客户对人工智能技术的兴趣日益浓厚,谷歌也在通过扩大张量处理器的产能与对外销售量 ,把握市场机遇。
然而,全球多数人工智能开发者使用的 PyTorch 框架,与谷歌芯片当前深度优化的 Jax 框架并不兼容 。这意味着 ,大多数开发者若想采用谷歌芯片,并使其性能媲美英伟达产品,就必须投入大量额外的工程开发工作。在日新月异的人工智能赛道上 ,这类工作需要耗费大量的时间与资金成本。
若谷歌的 “TorchTPU” 计划能够成功落地,将大幅降低那些寻求英伟达 GPU 替代品的企业的技术迁移成本 。英伟达的市场主导地位,不仅源于其硬件优势 ,更得益于其 CUDA 软件生态 —— 该生态已深度嵌入 PyTorch,成为企业训练和运行大型人工智能模型的默认方案。
知情人士称,企业客户一直向谷歌反馈 ,张量处理器在人工智能工作负载场景中较难落地,原因是这类芯片历来要求开发者切换至谷歌内部青睐的机器学习框架 Jax,而非大多数人工智能开发者早已熟练使用的 PyTorch。
与元宇宙平台公司联手攻关
知情人士透露,为加快研发进度 ,谷歌正与 PyTorch 的开发及维护方元宇宙平台公司展开紧密合作 。此前《信息报》曾率先报道,两家科技巨头正在磋商相关合作协议,内容包括元宇宙平台公司获得更多张量处理器的使用权限。
谷歌最初为元宇宙平台公司提供的服务 ,是由谷歌全权管理的模式:像元宇宙平台这样的客户,需部署谷歌设计的芯片来运行谷歌的软件与模型,同时由谷歌提供运维支持。知情人士表示 ,元宇宙平台公司在推动张量处理器适配软件研发方面有着明确的战略考量 —— 此举有助于降低其模型推理成本,推动自身人工智能基础设施摆脱对英伟达 GPU 的依赖,从而增强在供应链谈判中的话语权。
元宇宙平台公司对此不予置评 。
今年以来 ,谷歌已开始直接向客户的数据中心销售张量处理器,不再将其使用权限局限于自家云平台。本月,谷歌资深高管阿明・瓦赫达特被任命为人工智能基础设施业务负责人 ,直接向谷歌首席执行官桑达尔・皮查伊汇报。
谷歌需要这套基础设施来支撑两方面的需求:一是运行自身的人工智能产品,包括 Gemini 聊天机器人与人工智能驱动的搜索服务;二是为谷歌云的客户提供算力支持 —— 目前谷歌云正面向安索普(Anthropic)等企业销售张量处理器的使用权限 。



发表评论