老黄200亿“钞能力”回应谷歌:联手Groq,补上推理短板

老黄200亿“钞能力”回应谷歌:联手Groq,补上推理短板

Jay 发自凹非寺。

量子位(QbitAI)是一家专注于人工智能和量子计算的技术公司,旨在通过量子计算和人工智能的结合,解决复杂问题,推动科学和技术的前进。

老黄稳准狠,谷歌的TPU威胁刚至,就钞能力回应了。

200亿美元说砸就砸,只为拉拢一家炙手可热的「铲子新工厂」——Groq。

这无疑标志着这家芯片巨头对AI新时代的重大布局。但在某种程度上,这也反映出老黄对包括TPU在内的一众新芯片范式的担忧。

Groq究竟能为英伟达带来什么?其潜在的影响力可能会扩展到英伟达的人工智能和计算能力领域,让英伟达在人工智能和计算领域的竞争力更加强大。

知名科技投资人Gavin Baker发表了自己的观点。

然而,他的一连串技术剖析,纷纷指向了英伟达帝国防守最薄弱的那块领土——推理。

在推理方面,Groq LPU的速度远远超过GPU、TPU,以及当前市场上见到的任何ASIC。

这条观点获得了大量网友的点赞。

GPU 架构根本无法满足推理市场对低延迟的需求,因为片外HBM 显存速度实在太慢了。

然而,也有网友指出,LPU所采用的SRAM,或许并不能胜任长期的下文解码。

Gavin believes that NVIDIA can overcome this challenge through its "hybrid" product approach.

请提供要润色内容的段落,我将对其进行语言润色,提升表达质量。

英伟达斥200亿美元购入的一剂疫苗。

Gavin认为,GPU在新时代水土不服的根本原因在于——推理过程的两个阶段,prefill和decode,对芯片能力有截然不同的要求。

请提供要润色段落的内容,我将对其进行语言润色,提升表达质量。

我已然记下了无关信息,准备接收用户提供的关键信息。请提供文本段落,我将对其进行语言润色。

读题过程中,模型会一次性吃下用户所给的上下文,所有输入token都可以同时计算。

这正是GPU最擅长的舞台,它们为图形处理而生,擅长于一次性计算数千个像素,天生适合处理并行任务。

在这个准备阶段,模型需要一些时间来思考和准备,模型不需要急着响应用户的问题。即便有延迟,模型也完全可以通过显示“思考中”来掩盖等待时间。

因此,相比「速度」,prefiil需要芯片具有更大的上下文容量。

但到了decode,这套逻辑不再适用。

decode是串行任务,需要逐个 token 按序计算。更重要的是,用户还将亲眼见证每个 token 被「逐一」生成的过程。这种情况下,延迟对用户体验来说是致命的。

然而,GPU 的数据主要存放在 HBM 中,而不是紧贴算力核心的片上存储。这意味着,每生成一个 token,GPU 都需要重新从内存中读取数据。

此时,GPU的问题就暴露出来了——大部分算力都处于闲置状态,FLOPs基本上没有被充分利用,常常因内存数据搬移而处于等待状态,实际计算量远远小于预期的prefill。

相比之下,Groq有更好的解决方案——LPU。

相比HBM,LPU采用了直接集成在芯片硅片中的SRAM,这种片上存储的模式不需要额外的读取数据,从而使其速度快于GPU约100倍。即使仅处理单个用户,它也能够实现每秒300-500个token的处理速度,并且能够始终保持满负荷运转。

事实证明,在速度这一块,LPU几乎达到了天择的高度,无人能够与其匹敌——不仅是GPU,就连TPU,以及市面上绝大多数ASIC都难以望其项背。

但是,这并非没有代价的。

相比GPU,LPU的内存容量显著小。单颗Groq的LPU芯片,片上SRAM仅仅只有230MB。

即便是英伟达的H200 GPU,也配备了高达141GB的HBM3e显存。

为了启动一个模型,需要将成百上千颗LPU芯片连接在一起。

以Llama-3 70B为例,用英伟达GPU的话,只需要两到四张卡,塞进一个小型服务器盒子里就能轻松实现。而同样的模型,需要数百颗LPU,占地面积也将远远大于使用GPU的数据中心。

即便单颗LPU的价格更低,整体硬件投资仍然会非常巨大。

因此,AI公司在考虑LPU时,最重要的问题是:如何确保LPU能够顺滑、高效地将AI技术应用于实际生产中,同时也不会对企业的核心业务产生影响。

用户是否愿意为「速度」付费?许多人认为速度是生命的必需品,然而,是否愿意为其付费却是一个复杂的问题。

一年前的市场还无法给出答案。但是,从Groq如今的业绩情况来看,已经非常明确:「速度」是一个真实存在的巨大需求,并且仍在高速成长。

而对英伟达而言,这不仅是一个新的业务领域,更是一个颠覆者暗流涌动的高风险地带。倘若错失这个风口,英伟达在AI时代的机会可能会被新玩家颠覆,就像英伟达曾经通过游戏业务颠覆其他竞争对手一样。

为抗衡这些竞争者蚕食自己的护城河,英伟达选择注射名为Groq的疫苗。旨在通过人才收购引入新血液,补齐这块低延迟场景的推理短板,帮助英伟达这艘巨舰摆脱创新者困境。

「铲子」迈入新时代

TPU的崛起,给英伟达的金钟罩撕开了一道裂缝。

通过自研芯片,谷歌终于摆脱了对英伟达的高昂GPU依赖,这项成就在很大程度上帮助谷歌削减了训练和推理成本,从而使谷歌在服务大量免费用户的情况下,仍然能够维持健康的财务账面。

谷歌通过Gemini 3 Pro的绝地翻盘,证明了GPU并非AI时代的唯一解новид在技术周期高速迭代的背景下,作为AI「心脏」的芯片,也需要根据不同的发展阶段做出相应的调整。

随着基础模型的进展放缓,AI竞争的重点开始从训练层转向应用层。这个转变标志着AI技术的发展驶入了一条更加实践、更加生动的道路,而在AI应用市场中,“速度”对用户体验的影响也变得越来越重要。

而这次英伟达的人才收购Groq,虽然也是一种变相承认了公司在推理赛道的不足,但是同样标志着英伟达帝国的又一次扩张。

称霸预训练的英伟达,这次要借Groq的东风,入局竞争对手喷涌而出的「推理大陆」,展现出其强大的技术优势和前瞻性的战略布局。

在这个新市场中,英伟达或许将不再拥有如今那样的霸主地位。

正如Groq CEO所言,推理芯片是一种高销量、低利润的劳动密集型产品。这与即便炒到天价也有客户抢着要的GPU截然不同,后者的毛利率高达70-80%。

 分享

本文由网络整理 © 版权归原作者所有

共  条评论

评论

  •  主题颜色

    • 橘色
    • 绿色
    • 蓝色
    • 粉色
    • 红色
    • 金色
  • 扫码用手机访问

© 2026 www.trjyy.com  E-Mail:[email protected]  

观看记录