对话季宇:大模型非必须在GPU跑,CPU内存带宽已足够

对话季宇:大模型非必须在GPU跑,CPU内存带宽已足够

丸都山的作品,带给读者的是一份沉思的笔记,记录着他对生活和宇宙的思考,仿佛是在与读者分享私人笔记,引发读者的思考和共鸣。

编辑苗正卿

头图:行云集成电路

在北京万泉河畔的一幢写字楼内,我第一次遇见季宇。

他的身上拥有多个引人瞩目的标签:前华为“天才少年”;昇腾编译器专家;清华大学计算机科学博士;CCF(中国计算机学会)优秀博士学位论文获得者。

两年前,季宇离职华为后,毅然决然地创办了行云集成电路,勇敢地迈出了自研GPU的步伐。

而相较于他本人,更令我印象深刻的是他的办公室——各类物品摆放得井然有序,房间内纤尘不染,这样极致的整洁度,在工科背景的创业者中实属少见,展现出他对细节的关注和对效率的追求。

“主要原因是平时都在工位办公,所以办公室才能保持整洁。”正当我发出赞叹之时,季宇将手指向屋外,做出了补充说明,表明他的想法是超出了简单的办公环境,想要表达出更多的深意。

这种让人猝不及防的“坦率”,在接下来两个小时的对话中,上演了多次。

在谈到公司前不久发布的DeepSeek一体机“褐蚁”时,他甚至直接用“组装机”一词来代指。

对于关注AI行业的人来说,“DeepSeek一体机”的概念一定不会感到陌生,这是一种融合了高性能硬件、模型算法框架和行业应用软件的集成化计算设备,也可以粗暴地理解为“一台本地部署DeepSeek模型的高性能计算机”。

在硬件层面,DeepSeek一体机的实现离不开上游产业链的支持,通常需要与“英特尔或国产CPU、英伟达GPU和一定数量的系统盘/内存盘”等组件进行集成。

这也是季宇将DeepSeek一体机称之为“组装机”的原因。

然而,相较于过去家用的组装机,DeepSeek一体机的“攒机成本”要高的多。例如,在一台机器里放置8张H20芯片,仅GPU这项成本就达到了八十万。因此,通常DeepSeek一体机的报价都在百万级区间。

而在季宇看来,现阶段的大模型本地部署,成本可以实现一个“数量级的降低”,从百万级降低到十万级。

这段落的语言润色结果是:季宇的回答让人惊掉下巴。

“现在的大模型实际上并不一定需要在GPU上运行,因为CPU的内存带宽已经足够了,CPU的内存价格相比GPU的显存要便宜多了”,季宇解释道。

这番言论着实有些反常识。

由于传统认知中的 CPU 内存容量较大,但带宽相对较低;而 GPU 显存容量较小,但带宽高。然而,大模型的训练和推理过程中涉及大量的数据并行处理,需要存储带宽非常高。在这种情况下,GPU 的性能远远超过 CPU,这是业界公认的共识。

在我抛出疑问后,季宇现场给我算了一笔账:

“最新的服务器级CPU已经配备了12个内存通道,支持DDR5内存的高频率6400M Hz,结合双路服务器的设计,达到了顶级的CPU内存带宽,高达1.2TB/s,这一水平已经超越了RTX 4090(1TB/s)的性能。”

即便大型模型可以通过“跑在CPU”上的方式,降低成本,那么对于季宇和他所创立的行云来说,技术护城河是什么?业内其他公司同样可以复制这个技术路线,但基于其独特的架构设计、优异的算法和深入的技术积累,行云在这方面仍然保持着优势。

更重要的是,作为一家主业为GPU研发的公司,却站出来否定GPU在大模型时代的重要性,多少有点“左右互博”的意味。

季宇解释道:“当前,我们所使用的公版CPU,并非专门为大模型设计的,我们需要的是高容量的CPU内存,而CPU上配备的数百个物理核却无法充分发挥作用,因此,我们将重新设计一款芯片,这款芯片当然仍然是高性能计算卡,但与现在英伟达主推的GPU完全不同概念。”

值得一提的是,季宇自称是一个“资深NV吹”,他对黄仁勋的经营哲学深感钦佩。在他的眼中,英伟达能够在短短两年内颠覆英特尔的行业地位,这背后是黄仁勋十余年的系统性布局的结果,从最早期对元宇宙、比特币、生物医药等领域的投资,到一种“润物细无声”的方式,向行业证明GPU未来将比CPU更加重要。

某种程度上,现在的季宇会想到去做一款DeepSeek一体机,也是受到黄仁勋的启发。

“我们对这个产品的定位,可能更加偏向于概念验证(PoC),我不需要它赚取大量利润,但我需要通过这个项目向行业证明这个路线是可行的。如果行业中能够有大量玩家接受我们的方案,我们就能够通过自研芯片,为他们提供更加低成本的解决方案。”

这位“资深NV吹”,似乎正在通过黄仁勋式的挑战来质疑英伟达的权威。

以下为笔者与季宇交流实录,部分内容略有删减:

虎嗅:你之前在华为是做编译器开发的,为什么创业后会想到跨领域做GPU?事实上,这并不是跨领域的选择,而是编译器开发经验的自然延伸。编译器开发需要深入理解计算机科学和编程语言的基础知识,同时也需要对计算机硬件和架构有深入的了解。从编译器开发出发,我逐渐发现了GPU的潜力和广泛的应用前景,这使我产生了对GPU领域的兴趣和热情。

季宇开诚布公地表示,自己在学校期间所研究的方向与后来的工作没有明显关联。他曾经学习体系结构,这可以被视为与芯片架构相关的领域。在选择编译器时,他发现了许多内行的芯片,但最终商业化时仍然受到软件生态系统的限制。他认为,为了解决端到端的问题,需要考虑如何搭建编译器软件,以便于软件生态系统的发展。

随后,我决定转型做GPU,因为我意识到这件事的长期确定性极高。尤其是,我们原本就是愿意探索新事物的。因为老生常谈的工作实际上没有太多的机遇。老生常谈的格局和行业秩序已经逐渐稳定了下来,只有新兴行业才能提供探索的可能性,也是创业公司的适合领域。

虎嗅:从创业至今,你做过的最难的一次决定是什么?当我首次决定放弃稳定的工作,投身.startup entrepreneurship时,我感到非常挣扎。虽然我内心渴望着自由和挑战,但外部压力和家庭期望让我感到高度紧张。然而,随着时间的推移,我逐渐发现,这是我的一生中最重要的一次决定。它让我获得了自信、自由和成长的机会,这些成果让我感到非常满足。

季宇认为,可能最难的创业之处在于需要先清晰地想清楚商业逻辑,只有这样,剩下的所有事情都可以边干边学习。

虎嗅:那在GPU行业里,你想清楚的商业逻辑是什么?显然,这是一个关于技术和商业的结合体。GPU行业的商业逻辑不仅仅是简单地生产和销售GPU,还需要考虑到多个因素,例如市场需求、技术发展、竞争对手、成本控制等。

季宇指出,如果大家按照NV的路线去追赶NV,那么挑战成功是无可能的,这在计算机历史上从未出现过。

我们可以回顾一下,当年英特尔是如何挤掉IBM成为行业龙头的?它不是靠制造一个性能超强的巨型机,而是靠8086这种毫不起眼的小芯片,最后推动了PC产业革命,让人们逐渐抛弃大型机,甚至后来集群也抛弃了大型机。

英伟达取代英特尔,也是一样的。NV不是仅仅做了一个性能多么强的CPU,而是向大家展示了GPU可以做什么。它用了十年的时间,直接抹除了CPU在计算机行业中的历史。

虎嗅:因此,在当前行业中,是否会出现“新旧交替”的机遇?

季宇:我认为最关键的一点是要将大型模型从超算竞争转变为消费电子竞争,让每个人都能轻松使用它,这样才能真正地融入经济循环,并渗透到各个行业中。

因此,我们的主要逻辑是希望我们的产品能够在今天的消费电子价格水平上销售,同时也能够具备今天超算才能实现的最高质量大模型,这些大模型能够在这样的产品上得以支撑。

虎嗅:我们做的DeepSeek一体机“褐蚁”,其价格为什么能够降到“十万元”档?

季宇:今天核心的矛盾在于,模型所需的显存与当前单张卡的显存之间存在着巨大差距。这导致人们为了运算这种模型,需要集结大量的GPU,从而自然地改变了整个行业的形态,使其演变成8卡16卡服务器的形态,价格则达到了上百万元的水平。

然而,当前的CPU内存带宽也完全能够满足大模型的需求。顶级的服务器级CPU的内存带宽可以达到1.2TB/s,已经超过RTX 4090(1TB/s)的水平。此外,这种CPU的容量也远远超过GPU的容量。最重要的是,相比动辄几百万的超算,内存条就相当于是不要钱了。

虎嗅:那行业内其他厂商都没有意识到这个问题吗?

季宇:一方面,计算机行业是一个惯性很大的行业,当所有人都习惯使用GPU来进行训练的时候,人们自然不愿意轻易尝试其他方案。

另方面,人们可能认为使用内存运行大型模型,最高只能达到 Mac Studio 等级,无法转化为生产力。但我们想通过极致的软件优化,使得这些高带宽水平能够真正发挥出来,让用户拥有跟超算一样的体验。

虎嗅:我看到“褐蚁”的配置基本都是公版的,那么这个行业是否存在硬件门槛?

季宇表示,他希望推动这个应用的普惠,就应该使用最为常见、大家都习以为常的东西,然后将这种事情变成大家都能使用的,然后才能说是关键。而不是说你们一定要设立什么门槛,然后让别人都进不来,这实际上不是我们期望的结果。

虎嗅:我们现在做的DeepSeek一体机,和行云的核心业务(自研GPU),存在着紧密的关联性。

季宇表示,我们的自主研发GPU技术可以进一步降低整机的成本。

现在的CPU和GPU是否是为大模型一体机设计的?毫无疑问不是,它们的价值来自其他方面。虽然有些东西我们可以抛弃,但有些东西我们可以加强。也许是某个看似不重要的组件,我们却值得加强,而某个至关重要的组件,我们却可以抛弃。

虎嗅:能否展开讲讲,哪些是值得强化的?哪些是可以抛弃的?在企业战略中,有些战略是值得强化的,而有些则可以抛弃。强化的战略通常是指那些能够为企业带来长期利益和竞争优势的战略,而抛弃的战略则是指那些已经失效或无法为企业带来利益的战略。

季宇:例如,CPU中的物理核,我们大多数人都不会使用。今天,我们的主要关注点是DDR内存,我们之所以使用这个CPU,是为了充分发挥DDR内存的性能,而不是为了CPU的核数。事实上,我们只选择了一个32核的CPU,它完全能够满足内存通道带宽的需求。另外,我们自己设计的芯片可以将这些多余的物理核去除,最大限度地发挥DDR内存的性能,同时也能大幅降低成本。

虎嗅:对于应用端来说,他们会很看重这种一次性成本吗?

季宇指出,如果整个行业都依赖着上百万的超算,那么行业可能就会卡在某个 plateau 上,人们会不断思考 AI 可以做什么事情,同时云厂商也在思考能够找到超级应用的我。然而,这实际上对每个人都是不友好的局面。人们更关心的是,如果这个价格能够降低到一定的水平,那么这个行业就有可能爆发。

我们即将推出一项名为“蚁群”的项目,旨在通过集群化的褐蚁技术实现高并发处理。预算约为300-400万元,我们期待实现500-1000的并发处理能力,这意味着差不多可以支持10万DAU的用户规模。这种技术将为许多小型创业团队提供了机会,让他们能够一起探索和挖掘新的商业机会。

 分享

本文由网络整理 © 版权归原作者所有

共  条评论

评论

  •  主题颜色

    • 橘色
    • 绿色
    • 蓝色
    • 粉色
    • 红色
    • 金色
  • 扫码用手机访问

© 2025 www.trjyy.com  E-Mail:[email protected]  

观看记录