开场0:00
欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚新一代 AI 创业者和 AI 时代的积极行动者 , 和他们一起探索和拥抱新变化 、 新的可能性
。
我是 《 十字路口 》 的 Koji, 联合创办了 《 接盘 》《 新世相声 》 和 《 糖岛 》, 发起了 AI Hacker House 这个新一代 AI 创业者的社群空间 。
我相信科技 , 尤其是 AI,是我们这一代人最大的价值创造机遇 。 欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性 。
本周的 《 十字路口 》 呢 , 我们来聊一聊 AI 的 Infra,也就是 AI 的基础设施 。 那最近呢 ,有非常多的这个关于 OpenAI 这个基建狂魔的新闻在刷屏 。
首先是传闻当中 ,他们耗资 1000 亿美元的这个星际之门啊 , 超级计算机的一个项目 , 这个已经是今年年初的一个事情了 。
然后紧接着呢 , 这个在最近 ,他们与 Oracle 签了一个 3000 亿美元的一个订单啊 , 要在全美建设这个 4.5 吉瓦的巨型数据中心 。
那这个什么概念呢 ? 就是 4.5 吉瓦相当于这个接近 4 个核电站的发电量 ,而 3000 亿美金是超过了非常多国家的这个一整年的 GDP。
那这些天价合同的背后, 我自己的感受哈 ,是有一个信号在往外传递 , 就在 AI 的这个现在的时间点 。
那算法的创新呢 , 固然仍然非常的重要 ,但是算力好像在成为终极的变量 。 那这个好像是一场这个关于未来的军备竞赛了 , 已经从代码和模型延伸到了芯片 、 电力 、 数据中心等等这个更底层的各种物理世界 。
那回忆一年前 , 这个 OpenAI 曾经发了一个官方的报告 , 那个标题叫做 《Infra is destiny》, 就说 AI Infra 就是命运 。 那今天这个 OpenAI 也是坚定的在实践他们的这一个理解啊 。
那么与此同时, 我们中国的科技公司在怎么布局呢 ? 在这一场这个可以说是竞赛里面吧 , 我们又处于什么样的位置呢 ?
那本周呢 ,《 十字路口 》 请到的嘉宾啊 ,他的职业生涯几乎就是一部中国互联网的基础设施的演进史啊 , 从 CPU 的时代 , 那个时候自研服务器 , 再到今天我们说 GPU 的时代的这个超大规模的集群 , 那再走到今天大模型时代 。他就是百度百舸平台的负责人王雁鹏 。
哎 , 你好 , 雁鹏 , 欢迎来到 《 十字路口 》。
你好你好 。
啊 , 那我们先从快问快答开始啊 。 雁鹏 , 您的年龄 ?
41。
快问快答2:40
毕业院校 ?
华中科技大学 。
你的 MBTI 和星座呢 ?
呃 ,MBTI 不知道啊 , 星座处女座 。
呃 , 一句话介绍一下百舸 。
呃 , 一个高效的基础设施平台 。
呃 ,在百舸之前您在做什么 ?
呃 , 一直在从事基础设施方面的工作 。
呃 , 百舸目前的这个收入和利润的情况方便透露吗 ?
不好说 , 就头部吧 。
哈哈哈 。 然后像一开始提到哈 , 就是雁鹏的职业生涯 ,在我看来就非常像一个中国互联网基础设施的演进史 。
然后应该 2011 年的时候 , 雁鹏就加入了百度 , 然后呃 , 所以一直在百度是做基础设施的工作 , 从自研的服务器 SSD 到 GPU 的加速 , 再到今天大模型的这个大规模的 AI 计算平台 。
那可不可以先请雁鹏 , 就是从你这个亲历历史的这个角度 , 来给我们讲一讲 , 就是互联网的基础设施有哪几个主要的阶段 , 然后中间又有哪些比较关键的节点 ?
基建演进3:38
就从我的这个职业生涯可以讲一下, 就是我觉得呢 , 我确实很幸运啊 , 就经历了整个互联网的发展 。
整个互联网的发展呢 ,也是对基础设施有一个这种天翻地覆的变化 。 所以我看起来有三个大的阶段吧 。
第一个阶段就是我们那会刚入职的时候 , 那会其实是一个大数据的时代 , 这个时代是被这个 Google 带起来的 。Google 当时有这个三篇这个可以说是影响整个业界的论文 , 嗯 , 就是这个 MapReduce、Bigtable 和这个 GFS, 三篇论文 , 它奠定了一个就是大规模互联网基础设施的一个理论基础 。
当时他其实做这个东西 , 对他的这个出发点 , 呃 ,是也很直接 。 当时的更多的商业的这种硬件的话 , 都是为小规模服务的 。
当时比如说我们看到当时有这种 IBM 的大型机啊 , 然后像这个惠普戴尔的服务器啊 , 然后包括 Oracle 的数据库啊 , 这些软硬件都是为比较就跟互联网的数据量比 , 基本上差两个数量级的这种规模 。
所以他会发现这个商业的软硬件 , 一方面是贵 , 一方面满足不了他的需求 。 所以 Google 就引领了当时的我们今天看啊 , 叫大数据的浪潮 , 就是真正去处理这种这种特别大规模的数据 。
所以当时 Google 有一个这个传奇架构师 Jeff Dean 啊 , 这个当然做系统的同学一定都了解他 。他有一个非常重要的理念 ,他就觉得我是可以用 commodity 的硬件去搭建高性能的系统的 。
所以呢 ,他就推动了用这种相当于我们家用的 PC 电脑一样的东西 , 通过这个用几万台 , 然后呢去搭建一个超大规模的系统 。
那大家就可以想见 ,他对呃硬件来说 , 相对来说是容易的 ,是简单的 。他里面就没有很多的这种什么容错的技术啊 , 什么这种大型计算机的技术都没有 。他就是用家用的计算机 ,但软件上我用这种分布式的系统 , 分布式的计算 , 分布式的存储 , 然后来构建这样一套东西 。
所以这个是第一个这个大数据时代 。 那你想见其实对业界就有很大的震动 , 就像原来比如说那我做服务器的这些厂商 ,他的这种高阶的服务器 IBM 啊 , 什么这些东西服务器 , 那不需要了 , 被冲击了 , 被冲击了 ,不需要了 。
所以呢 , 软件上面 , 那我们就用这个现在这种分布式的软件 ,但是大家可以看到后面这个论文出来之后, 大家就在上面做了非常多的工作 。
这个东西呢 , 跟之前也有一个很大的变化 ,因为之前的更多的这个大家知道之前的 , 比如说这种呃分布式文件系统啊 , 然后这种并行计算啊 , 都是很高端的 , 都是一些商业的闭源的软件 , 你都不知道它里面的这种这这这这个这个这个是怎么做的 , 这个原理都不清楚 。他这三篇论文其实大家做了之后, 大家都会自己在上面做 , 包括后来我
们开源的哈杜普这个整个生态 ,其实软件上大家也都能做了 。 所以呢 , 我们就是第一批相当于互联网厂商自己去 build 的这个大规模的数据中心 ,不管是硬件还是软件 。
然后这个我理解也是 , 就是这种互联网大厂 , 就是真正的就进入到数据中心的这个硬件来 。 那好处也是显而易见的 , 我通过软硬件一体的方式 , 第一帮我能处理这么大规模了 , 第二极大的降低了成本 。
那个时候其实百度也是对应着 Google,也是需要这个处理海量的数据嘛 。 所以很自然的 , 我理解是不是在百度当时也是为了大数据 , 就做了比较多的这个基础设施的一些这个工作 。
然后那个时候正好你又加入百度 。
对 , 你说的对 , 就是百度也是 , 就是当时其实大家可以看到最大的单体应用就是搜索 ,其实当时会比我们的电商啊 , 包括这个社交 ,其实对数据的处理量都要大很多 。
所以百度应该也是国内就是最早面临这么大的挑战的公司 。 所以应该我们当时也算是最早吧 , 开始自己去做自研的硬件和软件这么一套基础设施 。
嗯 , 这个还是是一个很大的变化 。 我记得我最早做产品经理的时候 , 那个时候就是是跟着王鑫做泛粉 , 然后我有一个很深刻的印象 , 就是那会我们突然有一天服务器的这个量就起来了 。
那个时候其实我们正好办公室里面 , 就不知道为什么备着一台没有用的服务器 , 就放在办公室 , 然后还是就配好了 。
配好之后, 我是和新哥我们打了一个黄色出租车 , 打到北京西站 。 那个时候我们的机房在北京西站 , 然后我俩搬着那个刀片的服务器 , 然后给他插进去 , 然后还要打电话再给这个办公室的同事说看一看好没好 。
但是你现在想想 , 这个简直就是说给今天的这个工程师们听 ,他们会觉得像史前时代一样 , 今天不就是点两下鼠标对吧 , 百度云或者其他云服务器 , 那一下子这个就是会很有弹性 , 根本就不需要这个还打个这个出租车 , 两个人去搬服务器 。
对 , 所以你说这个正好就是第二个这个基础设施大发展的时代 。 第二个时代 , 我们看到对技术有一个大的跃迁 , 就是你说的这个云的时代 。
就你刚举的这个例子非常好 , 就真正的我的这些创业者 , 我还要自己去搞服务器 , 搞机房 , 还要搞什么上架 , 然后这些东西其实对我的开发者来说是非常不友好的 , 然后效率也是非常低的 。
而且那会觉得 R&D 的时间比较宝贵 , 所以就只有产品经理这个我们去做 , 你们嘛 , 工程师是坐在办公室指挥我们 。
对 , 所以说这个就是到了这个云的时代 。 那这个比较有代表性的就是从这个亚马逊开始 , 对吧 ? 他之前更多是做电商啊 , 卖书这些东西 , 然后所以说他有大量闲置的服务器 。
所以呢 ,他的那个就是就是他的这个拨风拨鼓更显著一点 。他有淡淡季旺季什么这个时间其实更显著一点 , 所以对他来说 ,他有大量的这个空闲的服务器出来 , 然后要怎么办 ?
他想到就是那我就把这个东西给租出去 。 所以这是他最早来做这个云的 ,他其实核心理念就是说我要让让这个计算变得非常的弹性啊 , 我不需要去关注我的物理的这些世界 。
然后但是呢 ,他的技术创新点在哪呢 ? 他和之前不太一样 ,他的技术创新点 ,他希望让用户能够更 easy 的迁移到云上面来 。
所以他做了一套基础设施 ,他为你打造的是一个就像你单机的服务器一样的 , 你随时可以登录上去 , 然后随时你可以看到上面有多少 CPU, 多少硬盘啊 , 多少这个内存等等。
它是一套虚拟化的技术 ,他在这个上面打造的 。 所以这一套东西深刻的影响了我们说的第二阶段 , 我们做的这个基础设施的架构 。他就需要把这种复杂的底层的这种虚拟化的能力 , 存到我们的数据中心这一侧 。
数据中心你可以管了这个几万台服务器 ,但是你在这几万台服务器上, 你可以虚拟出来几十万台这个这个用户侧的电脑 , 然后你而且可以随时的去缩放它的资源 , 缩放它的 CPU, 缩放它的内存 , 缩放它的这个这个这个硬盘等等。
就它是以弹性为核心构建的这么一套啊技术体系 , 就它能做到极致的弹性 。 这个最有代表性的技术 , 就是大家可以看到现在的这种智能网卡的技术 。
智能网卡 , 它其实就充当了一个这个虚拟化平台的作用 , 它把把我们的这个资源 , 底层的物理资源和用户看到的云的资源去隔开 , 然后上面的虚拟化的这个整个的一套技术 ,是承载在我们智能网卡的这一套系统里面去做 。
我觉得这是第二个大的时代 。
第三个呢 ?
再就到我们现在这个 AI 的时代了 。 对 , 到 AI 的时代 , 我觉得是一个更大的变革 。 就之前的呢 , 当然我们当时觉得变革也很大 ,但是我觉得跟今天的 AI 时代比起来 , 那都还是变化没有那么大 。
无间大屋 。
AI 真的是一个计算计算范式的变化 ,因为之前整体来说的计算范式还是在 CPU 上的 , 我们数字化所有的这一切东西 ,其实都是建立在 CPU 上的 。
所以 CPU 我们可以看到 ,CPU 是一个比较复杂的计算单元 , 它可以做很多通用的计算 , 我们叫通用的计算啊 。
通用计算就是我们不管是数据的处理也好 , 还是我这种各种呃业务逻辑的处理也好 , 还是我们比如说我们这种呃这种显示技术等等 , 这些都是数字化的 , 这些东西其实全部都是 run 在这个 CPU 上的 。
所以就导致了 CPU 的计算其实不全是它的核心 , 它核心是处理逻辑的 。 所以大家如果是学计算机的就知道 , 它里面有很多这种控制的逻辑 , 就它会它会处处理很多复杂的逻辑 , 然后它有什么乱序的这种执行 ,因为我如果顺序的执行 , 我这效率不是很低吗 ?
所以我就会有很多的预测等等等等。 所以大家可以看到 CPU 发展到后面 , 它可能只有 10% 的单元是给计算用的 , 然后剩下的可能百分之八九十全是给 cache 啊 , 给这个控制单元用的 。
所以它是一个非常复杂的一个处理器 。 所以但是它的好处就是它可以做整个世界的数字化 , 它可以把各种的应用 , 各种的逻辑全部都弄上来 。
然后还有一点就是说 , 我们经常说 CPU 的这个指令集是叫图灵完备的 。 图灵完备的是什么意思呢 ?
就是说我通过这几条数据集的那个指令集 , 我就可以完成所有的我们现在看到上面的编程语言 , 然后去构建我所有的软件 , 然后它是一个图灵完备的这么一个一个东西 。
所以它呢可以做到软硬件结构 。 所以大家经常听到我们原来的摩尔定律 ,是说我每一年半我的硬件就去翻一翻我的硬件的晶体管的数量 , 这是英特尔的那个摩尔提出来的 , 对吧 ?
就是一个非常经典的 ,他们去翻去去去翻一翻 。 所以它有一个好处就是软硬件是结构的 , 我硬件但凡翻一翻 , 意味着我软件的性能大概率也提升了一倍 , 就是我软件不用做任何改动 , 我全部是兼容的 。
然后不管是云啊 ,不管是大数据啊 , 它其实还是在 CPU 的这个计算体系上面去做的 。GPU 时代 , 我们说为什么它是一个本质上的计算平台的大的跃迁呢 ?GPU 最大的特点是什么 ?
从硬件上看 , 就是把所有的晶体管的这个这个空间全部给计算了 。 我们刚才说可能 CPU 上只有 10% 的是给计算的 , 那 GPU 上就是 100% 全部都给计算的 。
所以就导致了它什么呢 ? 它的控制能力非常的弱 , 它不能去做复杂的逻辑 , 它做不了这种你随便写一个程序在它上面跑跑不了的 。
所以说 GPU 的理念就是我把算力堆到极致 ,但是我要想用好这个算力 , 就要配合一个非常特制化的这个软件去做 。
我要在对每一个算法 , 对每一个算子 , 我们今天看到的各种这个模型里面的算子 , 每一个模型我都要做比较深入的这种优化 , 我才能在这个芯片上把它跑好 。
所以它有一个特别大的变化 , 就是我必须要软硬一体 , 软件软件在里面占了很大的比例 , 这第一点 。
第二点就是我的硬件每一代变化 ,其实我的软件都是不兼容的 , 我要去花很大的精力去升级软件 。
所以这个我们就说进入了这个 GPU 的时代 ,但是它带来一个巨大的好处 , 就是说它的算力可以提升几十倍 。
就是在那个时候和英伟达合作的感受是什么呀 ?
呃 , 感受就是他们会派很多的工程师来帮助我们优化我们的这个模型和算法 。
那个时候已经有 CUDA 了 。
CUDA 是在这之前就有的 。 对 ,CUDA。 所以我们当时为什么选也是就是 NV 最早做 CUDA 的时候 ,他其实没想着在深度学习里面做 ,他更多的是他之前不是做显卡的吗 ?
他做显卡做着做着 ,他就希望我去做一层抽象啊 , 我做一层抽象就是所谓的 CUDA 这一层东西 。 我把这个算力呢 , 我不是只给显卡用 , 我在上面也可以呃让人自己去做一些自定义的编程 , 自定义的计算 。他其实当时出发点其实呃就是这个 , 就是像让让他的应用可能更广泛一点 ,但具体怎么用他其实不知道 。
所以呢 , 早期用 CUDA 的更多的就是在学校做研究的这些大学教授们 , 就他们用这个东西 , 然后然后自己去做一些各种算法的实验 ,他的效率比 CPU 要高 。
所以正好深度学习这一波 ,他就是以这个 Hinton 啊为代表的这一波 , 从大学教授这一波走出来的人 ,他们更早的接触的这个 CUDA 的东西 , 所以天然就把它带到带到这一波的这个深度学习的这个浪潮里面来 。
所以正好百度那会也是比较早的去成立这个这个 IDL, 我们当时叫这个深度学习实验室 。 所以说那个时候我们跟 NV 其实就会有很多的合作 。
当时你问这个这个感受其实就是就是他就是对每一个算法我都需要有深入的优化 , 所以当时他们就会派很多人来跟我们一起优化我们的算法 , 然后一起来做这种各种各种这种不同的呃场景啊 , 不同的模型的呃优化 。
所以很早我们就知道就 NV 是和英特尔不太一样的一家公司 , 就是英特尔他的可能还要是百分之六七十都是做硬件出身的人,NV 很早他整个公司的结构 ,他就有 80% 是做软件的人 ,他作为一个芯片公司 ,但是他其实有 80% 的人是做软件的 。
所以在那个时候你有预见到他今天能够成为一个世界第一的这种巨头吗 ?
如果那时候预见到了 , 那我不早买他股票了 。他他那时候那时候的市值才 100 亿美金 , 你看现在现在 4 万亿是吧 ,400 倍 。
就那会百度的股价可是 300 亿美金啊 , 三四百亿美金 ,但是百度的股价是三四百亿美金 ,他的 100 亿美金 。
所以这个就很有意思 , 就是真正的进入了就是深度学习带动了进入这个 GPU 的时代 。CUDA 的这个生态更多的是在我们深度学习的前些年, 有很多模型的变种 , 它上面要支持很多的小模型 , 所以这个 CUDA 的生态非常的强大啊 。
我要支持这么多模型 , 我自己去做一个 AI 的芯片的话 , 我硬件上可能可以把算力去堆上去 ,但是软件上我去适配这么多模型 , 难度就非常大 。
这是大家可以看到为什么前一轮啊 , 第一轮的 AI 芯片的创业浪潮其实并没有起来 , 包括国外还有一些公司呃其实当时也挺火的 , 就做 AI 芯片的创业都没起来 , 就是因为他的这个软件适配要的代价太过于的大 , 你很难去跟 NV 去掰手腕 。
所以这是大大家说这个 CUDA 生态的强大 ,但是我们看到今天这个时时间其实又进化了 , 就是我们说的现在我们大家经历的这个大模型的时代 。
大模型的时代 , 大模型的时代 , 它其实本质上的在我看来它是一个它是一个工业范式的变化 。 就是原来我们说这个深度学习的时代 , 它还是一个还是一个算法创新去驱动的东西 。
算法创新它就有一个什么问题呢 ? 就是它需要你灵光乍现 , 对吧 ? 我我的场景无穷的多 , 我这个场景能不能能不能弄得好 , 我今天解决了这个场景 , 明天我再迁移到其他的场景 , 又需要花很长的时间 , 很长的代价 , 可能还需要我们各种的科学家们啊 ,有这种新的发现 , 要发明了新的模型结构等等这些东西去弄 。
所以它整体来说这个创新是不太可控 ,不太可控就导致了它能够落地的应用 , 大家对它的预期都是有限的 。
所以说呢 , 它还是一个小众的东西 。 所以即使在那个时代 , 我们很难说整个的计算平台从 CPU 迁移到 GPU 了 ,GPU 更多的还是一个补充 , 它还是在一个这个探索发现的这么一个阶段 。
但大模型真正带来变化的是说它是一个工业的范式 , 就大家会经常会提到 , 就是它是一个 Scaling Law。Scaling Law 是啥意思 ?Scaling Law 就是说那我不断的去 scale 我的规模 , 一个是这个模型的参数量 , 一个是模型训练的数据量 , 就在这两个角度我去 scaling, 它的模型就会变强 。
那这个东西它就真正的进入了一个工业大生产的时代 。 那我们可以去类比原来的那个 CPU 时代就一样了 ,CPU 我们说它是软硬结构 , 这是它的第一个特点 。
第二个特点特点就是说它硬件的迭代是有一个工业的力量去推动的啊 , 我我这个摩尔定律不断的去推动我的芯片的性能就会越来越强 , 这样它就会让我整个数字世界越来越强 。
我芯片变强了 , 我的应用就变强了 ,而且我中间还不用做特别多的适配 。 所以英特尔是当年的霸主 ,他只要每一年半推出一代新的产品 ,他就会变成了一个可以推动我的整个产业链发展的这么一套东西 。
那大家回头看大模型 , 它就在在这个这个这个新的智能时代去创造了这么一个范式 。 大家只要去 scaling 我的东西 ,scaling 我的参数量 ,scaling 我的数据 , 我的智能就会越来越强 。
这是当然从效果上, 那那大家更是让大家惊艳 , 对吧 ? 效果上我这个所谓越来越强 , 它就是有很强的泛化性 , 它可以这个这个我们我们今天看起来这个都习以为常了啊 , 都觉得我们这个这个大模型什么都能干 , 可以跟你聊天 , 可以跟你做总结 , 可以甚至可以当科学家 , 什么都行 。
但是这个东西你要在之前退回到大模型时代 , 我们就退回到三年前来说都不太可能了 。NLP 当年是大家觉得是一个研究上的一个皇冠 , 皇冠这个皇冠什么意思 ?
就是我们非常的复杂 ,NLP 里面有非常非常多的领域 , 每一个领域用的算法策略什么都不一样 。 结果大家没想到大模型突破的是 NLP 的领域 , 第一个突破的是这个东西 。
因为我们看到前一代的这个这个深度学习更多的突破的是什么呀 ? 是图像 。 大家可以看到现在的监控 、 安防这些东西 ,其实图像这个领域 , 图像是一个相对容易的事啊 。
图像因为我不需要在图像里面做很多的语义 , 很多的复杂任务都不需要 , 我只需要去做一个简单的这个这个人脸识别 、 车牌识别等等这些东西就完了 。
所以它是一个是一个不需要太多智商的 。 当时经常有一句话嘛 , 就是说我深度学习给你这个解决的内容 , 大概就是这个四五岁小孩能做的事 。
那四五岁小孩能做的事就是能能看能认你的人脸是怎么样的这些事 , 对吧 ?NLP 的很多事情在原来的深度学习时代其实解决不了的 , 对吧 ?
这为什么大模型是真正震震惊了整个业界呢 ? 就我觉得绝大多数的学者 , 这个行业里面的人都没有预料到它有一个这么巨大的跃迁 。
所以在效果上捅破了天花板 , 然后在模式上它又变成了一个工业化的东西 , 可复制的东西 。 我堆更多的算力 , 我把参数量做大 , 我把数据量做大 , 我就能让这个效果不断的持续的变好 。
所以这个催生了我们现在真正的在我看来就是从整个大的计算平台 , 从 CPU 真正跃迁到以 GPU 为核心去弄 。
而且这个 GPU 为核心 , 智能就是算力啊 , 你算力就能催生多少智能的话 , 它就变成了一个爆炸式的东西 。
说到这里啊 , 就这几个月你有感觉到 AI Infra 有发生哪些新的变化或趋势吗 ? 就尤其是 OpenAI 与英伟达 、AMD, 还有最近博通就都有添加的合同嘛 。
就这些事情发生的时候 , 你会如何看待 , 如何理解 ?
我觉得就是这个范式 , 我们认为是可以持续下去的 。 就是说它就是在一个这种大的规模的算力的基础上, 我就能催生智能的这个逻辑是能成立的 。
然后在这个成立的基础上, 那我有更多的算力的建设 , 我就能催生更多的智能 , 智能就会能反过来给我消耗更多的算力 。
然后然后呃这个正循环是能够提升的 。
哎 , 那你会觉得这个竞赛会变成某种这个资本竞赛吗 ? 就是呃需要是有非常大量的资金投入才可能获得一些优势 。
那在这样的情况之下 ,不管是中小型的公司还是大学研究机构 , 就是在这种竞赛里面他们还有什么样的优势呢 ?
算力竞赛25:06
我个人判断啊 , 就是说呃如果我们就沿着现在这条路去走 ,其实确实更多的前沿的研究内容会在这种大的公司里面去催生 。
就是它有海量的算力 , 它就能做 。 但是呢 , 我觉得咱们从另外一个视角来看 , 这个东西它可能不是智能的终极的形态 。
就是咱们从对比人类的大脑 , 人类大脑你没有消耗这么多的算力 ,也没有消耗这么多的电力去做 。
那这个上面就是本质的这个架构的创新 , 我觉得还是我们下一阶段要去追求的 。
对 , 像 Andrew Carpathy 最近的一个新的播客里面也提到 , 就是他觉得现在 Transformer 像是在造一个初级的动物 。 但是如果你真的要造智能的话 , 应该不是现在这样的一个做法 , 应该有不同的这个技术的路径要去探索 。
对啊 。
包括 Hinton 其实应该也一直认为这个 Transformer 不可能通向 AGI。
对 ,Hinton 其实他观点其实也一直在变化 ,但他有一个观点就是说他觉得呃神经网络不是一个高效的东西 , 所以他这中间花了很多时间去研究什么胶囊网络呀什么的 。
就是说我们人类的大脑看起来不是这个暴力计算的 , 它是这种这种这种叫做叫做什么呀 , 叫做这种呃触发式的 , 就我们脑神经里面这种电流 , 这种触发式的这种东西 , 内脑的计算 。其实这个东西可能至少更符合我们人脑的这种构造 , 对吧 ?
所以就是说如果我们对比人脑的话 , 人脑它其实不需要这么大的这个功率去做这这些事情 。
那我们录播客的今天早上啊 ,DeepSeek 又发了一个新的这个 OCR, 然后它其实在讲的点就是其实人类这个在记忆里面不是用文字来记东西的 , 或者就我们处理信息也不是用文字来处理的 , 我们都是用视觉 。
我们看到什么 , 包括我们看书其实也是在看一个视觉 , 就不是一个一个文字 token 进来的 。 因此它用这个就是图像来去压缩信息的输入 , 可以就是让存储的效率和传输的效率变得更高 。
对 , 所以这个就是我我如果我来看这个研究和工业的区别就在于这个 , 就是说我们现在看到的 , 如果是在 Scaling Law 的这个基础上去让我们的模型效率不断的变好 , 然后去解决更多问题 , 这一条途径我认为更多的会发生在这个公司里面 。
所以但是这个东西也是需要很多创新的哈 。 它不是说我我把这个算力堆上来了 , 我这个东西就立马能做上去了 , 对吧 ?
如果能这样 , 那 Meta 现在也不会这么着急哈 , 跟 Meta 其实买了很多的卡 , 还是要顶尖的 talent, 顶尖的人才 。
但是我们刚才说的像那种更高级的压缩算法 、 内脑的神经网络等等 , 这些范式的创新 , 我觉得还是我们需要去追求的 。
而且这个范式创新同样它也是软硬一体的 。 软硬一体的就是说 , 比如说我们内脑的神经网络 , 那你就用到的芯片肯定跟今天不一样啊 , 完全不一样 。
哎 , 我们都说这个大模型的进化是要分算力 、 算法和数据 , 然后在您看来今天就哪个因素这个相对其他更加重要 ?
呃我个人觉得就是因为我们刚才分析这三点来看的话 , 从算法的角度其实呢 , 现在大家的大的方向是一致的 , 就在当然里面还是会有很多的创新在 ,但是大的方向上是一致的 。
然后呢 , 更重要的是从数据的角度 , 大家可以看到现在我们互联网上数据其实都用完了 , 所以现在进入了一个数据不够用的阶段 。
那大家的统一的做法就是会去合成生成很多数据 , 所以或者说下一代我们的模型的这个进化都需要去生成数据 , 这个有有我们预训练就要去合成很多数据 。
然后更重要的一个范式 , 现在大家都说这个强化学习的这个范式 , 强化学习的范式本质上也是自己生成数据 , 自己模型去生成数据 。
所以大家可以看到就是说我们现在能用的数据已经用的差不多了 , 那我们更多的数据来自于哪里 ?
还是来自于算力 。 你有更多的算力就能制造更多的数据 ,有更多的算力你就能在数据上面做更多的这种清洗 、 什么过滤等等 , 做优质数据 。
做优质数据了 , 你再反补到这个这个这个算力里面来 。 所以不管怎么看 , 算力呢都会发都会起到一个更加重要的作用 。
其实聊到这里啊 , 就让我想到今年年初的时候 ,DeepSeek 发 R1, 正好是 OpenAI 在讲这个星际之门计划的时候 。
然后在那个时候其实出现了两种声音 , 一种声音就是说这个呃还是要这个堆算力啊 , 大力出奇迹 。
然后另外一种声音呢就是 , 哎 , 你看其实中国我们可以在很多地方用巧劲 , 那不一定这个世界上只有算力决定论 。
对 , 那对这样的观点您会怎么看 ?
我个人觉得这两个东西不矛盾 。 就我刚才觉得算力是一个基础 ,不管是算法的创新还是数据的创新 , 这些东西都要落到你有足够的算力才能做到这个上面来 。
意味着你有更多算力 , 你就能做更多的算法的实践 。 就比如说我每一个 token 能够提升多少智能 , 这个可以理解为是算法的效率 , 对吧 ?
然后一个 token 需要多少算力去支持 , 这可以理解成算力的效率 。 这两个乘起来最终是智能的效率 , 这个算法的效率也需要提升 。
所以 DeepSeek 就给我们做了一个很好的这个实践 ,是说是说我在算法上的提升带来的提升幅度也非常大 。
就你不要完全在原来的那套范式下面去做 , 然后你可能要堆一十倍 、 一百倍的算力你才能做 , 那你可能很快就做不下去了 , 对吧 ?
所以说 DeepSeek 告诉我们通过软硬件一体的创新 , 它的模型是很强 , 这个跟硬件强耦合设计出来的 。
大家真正我们觉得 DeepSeek 让人眼前一亮的地方在于它的模型架构跟硬件有这个深刻的结合 。
深刻的结合 。
对 , 就它是在这个我们现在的 GPU 的这个芯片以及集群上做的一个更高效的这个模型架构的设计 。 它能够让模型的这个这个这个效能得到大幅的提升 , 然后 enable 了我们说的这个 MoE,因为原来都是密集计算 , 然后 MoE 是一个稀疏计算 。
稀疏计算其实天然对 GPU 对大集群来说 , 或者对我们现在的大集群来说是不友好的 ,因为我们的大集群更擅长你就给我一整个的密集的稠密的计算 , 我给你把它算出来 。
但稀疏的就意味着有的地方算 ,有的地方不算 , 那我中间我怎么样去排布这些算力 ? 那这个东西就跟模型的架构紧密相关了 。
所以 DeepSeek 给你演示的就是说我在模型的上面去创新 , 然后模型的这个结构的设计是基于我现在的硬件体系去设计出来的 ,不是我在家想的 , 对吧 ?
因为原来你如果只从一个方面去想 , 那我算法我就去做 MoE, 我怎么样高效 , 那肯定是稀疏度越低我越高效 , 我稀疏的比例越低越高效 。
但是呢 , 你如果把这个硬件带进去的话 , 你就要考虑两个方面 。 你光稀疏率低不行 , 你稀疏率低但在我的 GPU 上跑不出来啊 , 你给我搞的全是这种稀疏的矩阵 , 然后中间全是空洞的这种矩阵 , 那 GPU 上做做不了这种矩阵计算 , 那它就不高效了 。
所以 DeepSeek 跟我们打的一样 , 就是说那我们根据我的硬件去设计我的算法 , 然后最终体现出来的是一个更高效的算法去提升 。
哎 , 我们再说回哈 , 就算力那么的重要 , 我们看到这个就是美国的各个公司以 OpenAI 为代表投了那么多的钱进来 。
那我也很好奇 , 比如说这个我不知道能讲到什么程度 , 就是有没有一些数字可以讲一讲 ?
我觉得这个就是一个这个数量级上的变化 。 我们自研的芯片的一个单体 3 万卡的集群 , 这个应该是目前我们看到国内最大的国产的单体的集群 , 然后就是为了满足我们现在的需求 ,而且现在用的也很充分 , 上面我们现在的这种比较先进的模型都是通过这个集群给训练出来 。
哎 ,3 万卡的集群大概是一个什么样的概念 ? 现在你们用起来是觉得这个绰绰有余还是捉襟见肘 ?
呃 , 所以我们这个集群从建起来到全部的给用上, 可能只花了这个两三个月的时间 。
哦 , 这么短 。
这也可以反映出来大家都在等算力 , 哈哈 , 大家有很多的这个这个这个创新和实践其实都被算力给给压压抑住了 。
所以当你这个集群建好之后, 大家都会很快的把它用起来 。
3 万卡集群这个咱们百度有啊 , 那比如在 Meta 或者 OpenAI, 然后在 xAI 他们的这个集群大概是一个什么样的规模 ?
他们都比我们大 , 就是他们现在的头部的这家公司的集群规模 , 呃 , 我指最先进的模型训出来那个大概都在 10 万卡的级别 。
呃 ,在 3 万卡集群的这个状态之下, 比如说和 10 万卡你觉得它差的是比如说是 70% 还是其实 3 万卡和 10 万卡只差了 20%, 或者说其实差了好几倍 ?
呃 , 应该说还是我们刚才说的 , 你要去做模型的探索 , 你要去研究更先进的模型 , 你就得往更大的模型规模去走啊 。
所以我觉得现在算力确实是制约国内外这个 AI 发展的还是一个很大的因素 , 就是我们因为现在这个这个客观的因素 , 我们拿不到这么多的算力 。
所以刚才我们说 3 万卡也是我们国产的集群嘛 , 国产卡我们自己的集群 ,其实比性能上比 MoE 还是有一些差距的 。
对 , 所以我觉得这是国内外的一个一个现状 , 这个差距我们确实对整个 AI 的发展是有一定的制约的 。
做到 3 万卡的时候 , 会对这种电力或者这个物理空间就会已经开始就需要很大的挑战了吗 ?
啊 , 对 , 所以挑战是还是比较大的 。 所以我们可以看到在这个这个规模下面 , 我们就大规模的用了这个液冷 , 然后用了我们的这个长距的 RDMA 的技术 。
就原来的 RDMA 其实是在就是我们这个网络互联 ,其实是在一个比较小的规模里面去做的 。 当你到这个 3 万卡或者更大规模的时候 , 或 10 万卡规模的时候 , 你就会有这个长距的 RDMA, 你更长的距离 , 那你这里面就要有不同的协议 , 然后不同的扩展的这个拓扑等等来解决这些问题 。
所以当然我们可以看 3 万卡整体来说在现在还是可以去支持 , 还是可以去支持啊 ,在现在的这种电力技术 。
但我们可以看到这 3 万卡确实也是我们在变电站上面 , 就是原来的比如说这个一栋楼的变电站其实就不够了 , 可能要一个园区的变电站我们才能去弄 。
所以这个也是一个纯新建的 , 纯新建的 。 然后但是不管怎么着 , 我们现在可以看到就是这种基建的速度还是跟不上我们这个算力或者能源的这个需求 。
所以我们可以看到我们一方面我们会用这个液冷的技术啊 , 这个大规模组网的技术啊 , 一方面我们也可以看到老旧的数据中心是一定满足不了需求的 。
新建的数据中心今天新建的可能满足今天的 OK,但我们到下一代的时候 , 我们发现我们又需要更高的密度 , 更高的机柜的密度 , 更高的机房的密度 , 然后更高的这种供电的能力等等 , 这些东西我觉得都对基建有更巨大的需求 。
对 , 说到这里 ,其实最近在美国就是我看到 OpenAI 发了这些大的合同之后, 呃 ,也有一些辩论啊 , 很多人就说这个可能会是巨大的浪费 ,因为它和当年建光缆或类似的这种基础设施是不一样的 。
因为光缆建好之后, 它没有那么快的迭代 , 所以 3 年、5 年还是 20 年之后, 只要建好了 , 铺设好了就能一直用 。
但今天建数据中心或者买那么多的卡 ,但是很可能一年半之后, 甚至半年之后, 你就发现就从基建到卡就全部成了上个这个时代的东西 , 它就全部这个被浪费了 。
那你会怎么看 , 就是现在这种迭代速度对于做基建带来的各种影响 ?
我我觉得这个就是大家相不相信这是一轮新的工业革命 , 就是本质上这堆卡是拿来干嘛的 , 这堆卡是拿来支持创新的 。
我们有这么多卡 , 意味着我们能做更多的创新 , 能够去在现在的这个语言模型或者这个大模型上面去解决更多的问题 , 然后让我们的呃 , 就好比是说我蒸汽机发明了之后, 什么时候能变成这个这个这个电动机 ,是吧 ?
然后这个的发展是需要这个算力来支持它的 。在我看来 , 就是现在还是一个高速发展的时代 , 大家可以看到现在的这种成果日新月异 , 然后这些成果都是基于这些算力来做的 。
所以这些算力的前提 , 那我们刚才也说了 ,在这个范式下我堆这么多算力出来 , 它就一定能产生更好的结果 。
所以我们我们其实只是判断这个结果到底是让我的这个应用的价值去提升了 100 倍还是提升了 10 倍 , 只是这个差别 ,但它一定不是提升了 10% 还是 5 倍的差别 , 它一定不是这个东西 。
它还是足够显著的 。
它是一定是一个足够的显著 , 我相信 100 倍总终归会来 , 只是说我是 3 年到了还是 5 年到了 , 它只是这么一个差别 。
那如果只是这么一个差别 , 那我们只要把时间尺度稍微放长一点来看的话 , 它一定在我们看来它就不是大的浪费 。
所以你会觉得这其实并不是一个有的选的事情 , 就见货不见 ,并没得选就一定要建 ,不建的话等于就是这个拒绝创新了 。
对 , 这是我的观点 , 就是它的建的本质就是说我要支持更好的创新 , 更快速的创新 , 让我们这个时间真的能拉短 。
就大家都相信那个 100 倍未来的那个时代会来临 , 那我现在建的这个东西能不能让这个来临的时代缩得短一点 , 那就是这么一个区别 。
我们刚才用一句话这个介绍了一下百舸哈 , 就如果稍微展开一下, 就给我们大家科普一下这个呃 , 百舸是一个什么样的产品系统平台 , 这个你会怎么来讲 ?
百度百舸40:10
百舸其实从道理上很简单 , 它其实就是为大家提供一个最高效的算力的平台 。 我们说百度做了这个十几年的 AI,其实我们从最早支持内部到现在百舸同时支持内部外部 , 今天它就是一个能够高效的去服务大家的各种算力需求的这么一个这个基础设施的平台 。
所以从特点上来讲 , 我觉得呃 ,有几个点吧 , 第一个就是说它能支持非常大的规模 , 我们说现在的这个这个这个创新都需要非常大的规模 ,但你要去搞定底层的这些 , 刚才我们说了 , 你要搞定机房 , 搞定这些稳定 , 搞定我万卡的这个扩展性 , 然后还能在上面稳定的训练模型等等 , 这这个东西其实是涉及了很多的这个技术栈 , 然后
要自己去搞定的 。 我们最大可以支持到万卡的这种规模的这种单体的任务 。 第二个我们的理念就是让算力用的很轻松 , 我们说之前说云是弹性的 , 你这个可以互相弹 。在这个 GPU 时代 , 我们提出来叫异地异构异网的概念 , 就是让算力我可以做呃比较轻松的使用和拼接 , 就意味着我可以不同的芯片我可以用在一起 , 然后在不同的地域我也可以把它用在一起
, 然后在不同的网络环境下我也能把你用在一起 , 然后能让你有一个把各种高效的算力用起来 ,而且用的很轻松 。
所以这是我们追求的第二个理念 。 然后第三个理念就是极致的工程的效能 , 就大家说我们现在的这种创新 , 比如说我提升了 10% 的性能 , 意味着我可能就要少用 10% 的卡 , 对吧 ?
这 10% 的卡可能对应到就是一个天文数字的成本的投入 。 所以我们在呃训练推理的引擎上做了非常深入的优化 , 然后然后包括现在的这种强化学习的框架范式 , 就是这种工程架构上面我们做了非常极致的优化 , 能够让大家享受到最高效的这个算力的基础设施 。
对 , 呃 , 百舸最近刚发了 5.0, 然后我在看你们的这个官方的介绍的时候 , 发现有一个用词非常自信啊 , 就是说这个是迄今为止最强大的 AI 计算平台 , 就连之一都没有啊 。
然后我们聊下来 , 我感觉雁鹏是一个非常务实的这个呃工程师啊 ,但是我就很好奇 , 当初团队要定这么一个霸气的这个 slogan 的时候 , 这个你是怎么思考的 ?
我觉得这个更多的是说我们还是第一对我们的能力还是比较有自信的 。 刚才说我们其实这个整个的这个我们从 12 年开始做 GPU,其实我们是服务了大量的这个客户场景的 , 我们是在客户场景的不断的服务中去提升去积累的这么一套东西 。
所以说呢 , 我们相信我们对各种的应用场景的理解是比较深刻的 。 第二个也是比较这个前沿的 ,因为整个百度对这个 AI 的探索还是走的比较比较快的嘛 , 所以各种的这种前沿的应用也是在我们的整个平台的支持下做起来的 。
我觉得这是我们最宝贵的财富 。 第二个就是百度对这个 AI 的投入也是非常坚定的 , 大家可以看到就是在这个 AI 的大模型时代 ,其实能坚持做大模型的 ,其实坚定的做大模型的其实已经没有那么多了 。
然后百度应该是全栈的 , 我们说我们有四层架构 , 从芯片云的平台到模型到应用 , 全栈的这么样去做的这种公司整个还是很少的 。
然后我们呃这个在这一块也是坚定的投入 , 所以说在这个基础上我们既前沿又坚定 , 所以我们相信我们做出来的这个平台它是高效并且易用 ,并且能够切中大家现在最前沿的研究方向的东西 , 所以能够切切实实的给大家带来价值 。
那我相信这个大家一定也会问你一个问题啊 , 就是比如说这个咱们百舸和 AWS 和微软 Google 或者这个阿里云或者火山的比起来 , 这个呃有哪些差异化的优势 , 或者这个在选择摆在面前的时候 , 然后选百舸的最大的一些理由有什么 ?
嗯 , 所以我觉得第一点还是我们我们刚才说百度一多年来坚持我们的四层架构 , 就是我们从芯片到云的平台到我们的模型到应用是这么一体化开发的 。
所以在这一套理念下面 , 我们做这种联合的优化 , 然后我们说做到极致的高效 , 这个东西是经得住大家的考验的 。
而且我们整个的这一套平台 , 从我们设计的第一天起 , 就这个能力就是内外是打平的 。 所以在这个基础上, 我们服务了内部的客户 , 服务了外部的客户 , 然后在这个基础上我们沉淀出来的这一套东西 。
哎 , 刚才其实我们前面有聊到英伟达嘛 , 和他打了那么久的交道 , 然后看到他从一个百亿美金的公司到今天这个 4 万亿美金的公司 , 你觉得中国有机会诞生自己的英伟达吗 ?
中国英伟达45:20
因为也有一个说法 , 就是说这个我们被这个被 ban 了啊 ,不能买 ,但其实这是我们还是积极思考 , 这其实给了我们机会来发展自己 , 对吧 ?
甚至这个黄仁勋在美国 ,他去游说这个美国政府的时候也是说你们这样做很蠢 , 你们会这个让他们这个倒逼他们出他们自己的创新 。
对 , 你会怎么看 ?
我觉得一定会有 , 就是我们刚才说的 , 就是说因为 AI 之争 , 大家说是这个国力之争嘛 , 就是不管是中国美国都会坚定的往 AI 去投 。
那在现在的这个竞争格局下面 , 那国产的芯片是一定要做起来的 。 如果你不做起来 , 你可能在这个竞争里面你就失去了你的命脉 。
所以说这个东西一定会做起来 。 那它做起来的最重要的前提是什么呢 ? 我觉得还是就是芯片是为模型服务的 。
现在 NV 的强大就体现在所有的最先进的模型都是在 NV 的平台上去训练出来的 。 这个东西已经形成了一个强烈的循环 , 就是我们说你需要投很多钱 , 你才能去建最先进的这个算力平台 , 你这个算力平台建好了 , 我才能训出来最先进的模型 , 那天然这个模型就跟你的算力平台去绑定了 。
你要再想去切一个算力平台去换一个芯片 ,其实对你的难度就非常的大 。 因为当你去建一个算力基础设施的时候 , 你肯定会默认去选一个最好的 , 对吧 ?
就这个最好的只可能只是一种感觉去选最好的 , 然后你就去会去选它 , 选它让你在上面做这个模型创新的成功概率会更大一些 。
你选上它了之后, 你做出来的东西那自然就跟它绑定了 。 然后本质上也是我们说软硬件的周期不一样 , 算法的创新我还是以几个月为目标去做的 , 然后但是我做一款芯片可能要好几年去做 。
但是反过来想 , 那中国现在我要去做一个 NV 出来 , 做一个这个东西出来 , 那它就是要和模型去做更深入的绑定 。
就是你刚才问我 , 比如说它的一个必然条件是什么 , 那它就要跟最先进的模型一起出来 。 我觉得这是最重要的必要条件 。
就比如说我们哪一天我们最先进的模型或者持续我们最先进的模型都是在国产芯片上做出来的 , 那这一款国产芯片成功的概率就是最高的 。
就今天看到这样的苗头了吗 ? 在哪里发生 ?
今天我觉得这个苗头还是非常显著的 , 就是因为在现在的这个这个趋势下面 , 更多人都开始尝试国产芯片 , 更多的人都会去用国产芯片 。
那但是呢 , 现在还没有达到我们刚才说的那个状态 ,但是呢 ,在我看来已经有非常大的进展 。 就我刚才举的例子 , 比如说我们的那个三万卡的那个集群上面 , 就跑了我们很多的这种训练的任务 ,因为这个东西肯定不是一蹴而就的 , 就是它有很多的训练任务要在上面能跑 , 要从小到大 , 然后能跑更多的任务 , 然后到各方面都稳定的时
候 , 我才能推到那个最前沿的那个模型上面 , 或者做出来最领先的模型是在我的这个这个自研的这个芯片上面去做的 。
雁鹏方方面来给我们分享一下啊 , 就最近我们看到这个硅谷的各种巨头在 AI 的 infra 上面的动作是非常多的啊 , 就从你的视角 , 就是局内人的视角啊 , 你会怎么来这个啊评价他们最近的一些动作 , 尤其是有哪些动作你觉得哎是比较能够被我们借鉴的 , 或者有哪些动作在你看来这个也是让他们去探索去吧 , 更让他们先去踩一踩吧 。
呃 , 我觉得最近让我感触比较深的是 Google 啊 , 之前大家觉得 Google 是不可撼动的巨头 , 对吧 ? 但是在 OpenAI 崛起之后呢 , 大家感觉 Google 受的冲击最大 ,Google 感觉从一个技术领导者的地位一下子感觉就落后了 。在很长一段时间内确实也是这样 , 就 Google 的模型好像没什么声音 , 感觉明显落后于这个 OpenAI。
硅谷巨头49:16
但是呢 , 最近 Google 的这个这个这个一下子感觉又回来了 , 又站在前台来 。在刚开始的时候 , 我当时就觉得 Google 它其实是有最好的禀赋的 ,Google 应该是全世界最不缺算力的公司 , 它应该比 NV 还要厉害 。
就是为什么呢 ? 因为 NV 还要靠芯片挣钱 ,Google 也不靠芯片挣钱 ,Google 的 TPU 是做的时间最长的 , 或者说你今天可以看到这个 NV 的很多的设计其实其实都是在 TPU 就跟着 TPU 去做的 。
就 TPU 是一个真正一直贯彻自研芯片 ,但我们插一句 , 就是 TPU 也是在 Jeff Dean 的这个这个领导下, 然后在这个推动下做出来的 。
所以 Jeff Dean 真的是一个很很传奇的人物啊 , 大家经常说 Jeff Dean 是不需要编译器的 ,他写的那个都是用他的眼睛 , 就是这个编译器 , 发个都能发现有很多他的这个传说 。
而且据说他现在这个每周都会自己去编程啊 ,他自己自己自己写 coding, 所以他真的是一个这个工程师界的传奇啊 。
最近 Google 的进展就让我们看到了 , 它真的是有后劲的 , 就是正是因为 Google 的它有芯片的布局 , 它有这个框架的布局 , 它之前做 TensorFlow, 现在当然它内部现在 TensorFlow 也不怎么用了 , 它用了一个更轻量化的呃叫 JAX 啊 , 现在更多的是用这个东西 , 然后去做这个这个这个框架侧的东西 , 然后它上面有它的云 , 它的云现在也比较强大 , 然后再到上面
有自研的模型 , 然后自己的单体的应用 , 然后这套东西大家突然发现它打好的这一套基础还是最强大的 。
我觉得这个是叫做我强大的这个基础是不容撼动的 , 这个东西我觉得体现了它多年来对这个这个整个技术栈的积累以及投入带来的现在的这么一个巨大的势能 。
然后我觉得这个是近期让我感觉最震动的一件事啊 。 当然第二个就是业界非常火的 , 对 Meta 花这个重金啊到处去招聘 , 然后当然这个引引发了非常大的争议 , 就是我这些人到底合不合理 , 我们先看它合理性的角度 。
我觉得是合理的 , 为什么呢 ? 就是 Meta 一年现在它披露出来的一年花 1,000 亿美金去买 GPU, 它花比如说 1 亿 1 亿美金去挖人 ,他挖 20 个人也才花 20 亿美金 , 对吧 ?
你对比 GPU 来说还是小头 。 所以说从资本的投入角度 , 我觉得是合理的 。 它这个这里这个人员的工资投入已经不在这个里面占大头了 。
所以所以我就说从合理性上我觉得是合理的 。 但是呢 , 我觉得从健康的角度 , 那肯定是不健康的 。
我还是不太看好它的这种模式啊 ,因为一个团队我觉得不是靠你这种临时去拼凑出来的这个东西 ,其实还是很难的 。
它还是需要大家有一个相对稳定的团队 , 然后里面有很多的它形成一种创新的文化 , 然后在这个上面然后碰撞出更多的火花 , 然后来支持我持续的创新 。
所以我觉得这个就反映了 Meta 之前可能在团队的建设上面是出了一些问题的 。 之前他做这个 Llama 其实也投入了大量的算力 ,其实它一直不缺 GPU,但它在这个团队的建设上面 ,在人员的配备上面可能是出了一些问题 , 导致了它可能做的没有那么好 , 对吧 ?
当然还有一个我觉得 OpenAI 它更多的是在推动这个大的泡沫往前走 , 你也可以说它更高瞻远瞩吧 , 更有未来的 vision 去做这个东西 。
所以你会发现它这些东西全是上杠杆的 。 哈哈哈 , 刚才说 Google 是打基础的 , 所以它的地基非常老 , 长出来的东西 。
但是 OpenAI 这一套东西 , 它就是以未来的这个杠杆 , 然后去翻去做这个预期的对冲 , 这么一套逻辑 。
我我觉得它比较大胆 , 然后它的这一套逻辑上呢 , 我认为是成立的 , 就是它的这种东西可能一部分是能兑现的 , 所以它来再催生这个模式 。
但是从好的一方面来讲 , 它就可能它会带动大家做更大的变革 , 可能能推动更深层次的我们说基建的变革呀 , 然后对这一方面的投入啊会加大 。
因为如果我们真的需要这些东西的话 , 那你基建你就会有需要更超前的投入才行 。 因为我们刚才讲有一个很重要的观点 , 就是说你这每一层的东西 , 你投入的周期是不一样的 。
你软件的算法的创新其实是最快的 , 我可能几个月我就能做出来一个新东西 , 我要做一个芯片我可能要两年, 整个基建的什么电力的变革这个东西我可能需要十年啊 , 几十年才能做 。
那这个东西如果我们相信未来是这样的 , 那我需要让更长远的东西我我要把它提前 , 那就需要有这种这种你说它的泡沫也好 , 还是这种推动未来的这种 vision 也好去推动这个东西 。
所以我觉得这个东西是 OpenAI 在追求的一条路 。
嗯 , 我们聊了一些大公司哈 , 然后其实今天也有一些创业公司会说我要来做这个 AI infra 的事情 ,不管是做算力的调度或者模型的加速 , 就你会觉得这个在 AI infra 领域创业有哪些地方还有机会 ?
因为我我觉得首先我觉得 AI infra 这个方向它肯定还是有机会的 ,因为我们说就是算力的需求会非常的大 ,也非常的多样化 。
我们它有一个特点 , 我们可以看到就是需求会多 , 然后我们跟我说整个从计算的生态从 CPU 迁移到 GPU 了 , 然后算力还翻了那么多倍 , 第一个它的需求肯定是存在的 。
第二就是说它的软件栈也确实非常复杂 , 我们刚才说 CPU 相对来说比较标准化 ,但 GPU 你针对每一个模型 , 每一款芯片 , 然后每一每一个这个这个这个规模 , 万卡还是十万卡的规模都会有很多不同的优化的点 , 不同的这个实现的方式 , 然后这个差异都会非常的大 。
所以它的软件栈整个来说非常的深 , 非常的多 。 所以说呢 , 针对我们的最终大家看到的在每个模型上的效果 ,在每个场景上的效果其实都会有非常大的差异 , 意味着它的技术的门槛和它的空间是存在的 。
你技术优化的好和不好 ,其实对你的算力最终的效率其实会有非常大的差别 。 所以我觉得这个需求点是存在的 。
当然我们创创业另外一个方面就是说你是不是一个有没有差异化 , 我觉得这个对 AI infra 来说实际上是比较难的 。
就是因为整体来说我们现在 AI infra 创业的这些公司 , 它做的东西其实是跟我们云的厂商是高度重合的 。
就是从商业模式 , 从你的这个这个用的技术手段这些方面来说是几乎没有差别的 。
比如说给你 1,000 万美金 , 让你去做早期的投资 , 就可以投到做 AI infra 这些创业公司里面啊 ,不管中国还是美国吧 , 你有想投的吗 ?
我还没有 , 还没有特别看好说我一定想投哪一个 。 就是从技术栈和大家的思路上面来说 , 大家其实是基本上是一一致的 。
所以你会觉得创业在 AI infra 领域还是挺不容易的 。
呃 , 所以我的个人观点就是说这个方向有机会 ,但在这个方向上你可能做不出巨头 , 可能更多的是我可以发展成针对某一类客户 , 某一类场景 , 它一个相对细分一点 , 然后我能做深入下去 , 然后提供我特殊的价值 , 这个东西我觉得大概率是存在的 。
我们再来聊一下这个个人职业相关的事情啊 , 就是我们知道雁鹏这您入行就一直做 infra 啊 ,但是其实这个做 infra 在一些这个工程师看来 , 它是一个很枯燥的选择 , 它很容易这个这个反馈周期长嘛 , 就得不到正反馈 , 所以坚持也不是那么的容易 。
呃 , 所以一个是想请你给大家讲一讲 , 就是你做 infra 那么多年, 这个在职业上面的一些感受 ,因为十字路口这个节目 ,因为我们名字叫十字路口 , 所以我们很多这个朋友们听我们就也会这个很希望听到一些站在职业的十字路口应该怎么做选择的一些故事或者建议 。
工程师建议58:42
作为咱们做基础设施的 , 我听到的说法就是一种是很容易做成运维 ,在公司就变成了各种打杂的啊 , 各种解决各种稳定性问题啊等等 , 就变成了这这这种方向的 。
这个感觉就是说但凡稳定大家觉得天经地义 , 对 ,但凡当机大家觉得这个天大的罪过 。
对 , 所以对吧 , 就是你要不然就不出现在大家的这个这个讨论的范围里面 , 要不然就是大家开始骂你 。
对 ,有监视中开始 。
你只能在这两个场景出现 , 那你就会就会这个这个这个遇到很大挑战 。 所以但是我觉得实话说 , 从我个人的职业经历来讲 , 好像没有太遇到这种情况 。
所以我想了想是因为什么呢 ? 我们很早期就来到百度 ,其实这个东西就是一个创新的 , 我要做这个大规模的这个基础设施 , 然后它的目标也很明确 , 我就得大规模的把成本给降下来 。
当时我要买这个这个商用的服务器的话和我自研的服务器的话 , 我可能成本差了一倍啊 , 那我的使命我就在把这个成本降下来 。
那我做成了这个使命 , 那我自然我的这个这个价值是比较大的 。 所以我觉得回答第一点问题就是说咱们做这个基础设施的 , 你还是要有一个大的平台 , 我觉得这个是第一点 。
你在一个小的平台里面就很很很容易做到我们刚才聊的那个 , 你就变成了一个运维的工程师啊 ,而且还要什么都懂 。其实我们刚才说这个技术栈是很复杂的 , 你今天解决一个存储的问题 , 明天解决一个计算的问题 , 再解决一个操作系统的问题 ,其实这个每一个领域里面的问题都很深 , 就杂而不精嘛 , 杂而不精 , 你解决的其实很累 ,而且而且也没有
太多的个人价值去创造 。 所以我觉得这个是第一点 , 这个映射到我们今天做算法创新其实是一样的 , 就是我还是认为就是咱们现在要做大模型的创新 , 就是要有我们除了我们刚才说的那种下一代的范式这种啊 ,在科研院所什么这些去做的话 , 我觉得现在大家要想要想做大的创新 , 还是要选择一个头部的公司 , 就它要有足够的资源
, 足够的资源 , 然后支撑我们的创新 。 我觉得这个
尤其重要 , 我觉得和我们当年可能还不一样 , 我们当年可能还有很多人去做这个这个互联网的创业啊 , 那个时候可能就是模式的创业 , 我可能几个人有一个想法 , 做一个 APP, 做个网站什么就能做起来 , 那个还还是还是有机会一下子做起来的 。
我觉得但是在现在这个是以技术驱动的这个创新的范式下, 我觉得更需要我们在职业生涯早期的时候 , 你就得有一个大的平台 。
我觉得这个是非常重要的一个前提 。 另一个维度就是你的客户在哪 , 对吧 ? 就是你要做基础设施的创新 , 你一定不是自己去创新的 , 你一定是拉着上面的这个业务方啊 , 可能是做算法的 , 可能是做应用的 , 然后跟你一起去创新 , 一起去落地一个东西 。
那这个东西呢 , 比如说我去在一个纯芯片公司 , 做一个硬件公司就要来的快啊 , 就我自己跟我自己的业务去紧密的结合 。
那比如说我早期我们就有很多是和我们的搜索做的各种的这个这个架构的创新 , 大搜团队 , 大搜团队它当时的需求量最大 , 比如说我们当时做 SSD, 对吧 ?
早期都是用这个这个这个硬盘来做 , 然后我们很早期就这个自研的 SSD, 然后做出来这个东西 , 那那会用 SSD 还非常少 ,但是我做出来这个东西 , 我对它的需求是很明确的 , 对它的这个价值创造也是很明确的 , 然后我做出来我就能很快的应用到它的场景上面去 ,也很快的我这个项目就能推成功 , 对吧 ?
我反过来想 , 我当时如果在一个 SSD 公司 , 我很难做出来这个东西 ,因为你做出来这个东西你要去找客户 , 找客户 , 然后客户用不用你 , 然后我还要想办法把它放到这个这个这个服务器里面去 , 就大家就会知道这个周期就会非常的长 。
所以说我觉得第二个关键条件就是你要缩短这个路径 , 缩短这个路径 , 然后去去去去做这个创新 , 然后能及时的能够得到这个项目的成果 。
因为大家知道百度有一个最高奖啊 , 它的标准是奖给 10 人以下的小团队去做出来超越超预期的这种价值 , 然后这个奖金是 100 万美金 , 哇哦 , 是一个非常重大的这个这个奖项啊 。
所以就对于百度的这个工程师来说 , 应该都是一个非常追求的这么一个奖项 。 我想说的就是说我们这个经历里面是得到了很多的最高奖啊 , 得到好多个 ,不止一次 , 好多个 , 好多个 , 好多个 100 万美金 , 哈哈哈 , 就 10 人的小团队嘛 , 分 100 万美金的这个里面 ,有些是我们团队主导的 ,有更多的是和业务团队一起合作的 , 就是比如说是和搜索团队
, 和这个 NLP 的团队 , 和这个语音的团队 , 和这个什么视觉的团队一起去合作的 。 我想说的就是说这就是在我看来就是一个比较好的创新的典范 , 就我有很好的点子 , 然后我有很很很强的创新的意愿 , 然后业务方也有很强的合作的火花 。
就这个东西 , 如果说大家是一个在大公司这么分层来做 , 或者是一个大的团队这么来合作的话 , 你可能要投几百人, 你能不能把这个创新落下去都不一定 。
但是在我们一个很高效的反馈的时候 , 我可能 10 人的团队 , 我就能做出来很多这种创新的结果 。 所以我觉得这个是这个第二点比较重要的 。
当然第三点我们再来看 , 就是我们刚才说我们找到了这个发力的方向 ,也能跟上层的业务一起做联合的创新 ,但整体来说我们刚才还是说软硬件本质上就是不一样的 , 对吧 ?
它的周期就是不一样 , 它的我建设一个机房 , 我搭一个集群 , 哇 , 那时间长了去了 , 我开发一个芯片那更长了 ,但是我软件的创新会更快 。
所以整体来说我做 infra 的反馈的周期还是会比我做应用和算法要慢 , 这个是一个天然存在的事情 , 天然存在的事情 。
但是我觉得从另外一个视角来看呢 , 就是这一块其实更需要你的积累 , 更需要你长时间的这种耕耘啊 , 你知道的这个对基础架构的了解更深刻 , 你对这个体系结构的了解更深刻 ,有点像大家在练内功 , 对吧 ?
大家说我有这个 70 年的内力 , 这个这个内力它是慢慢会内化到你的很多的这个上面去的 。 就是整体来说我觉得大家要投在这个 infra 上面去做长时间的发展的话 , 还是要做好长时间发展的准备 , 要对整个的计算机体系结构要有全面的了解 。
这个东西你只只有了解了这个东西 , 你才有可能做出来这个更不一样的东西 。 当然我觉得现在有一个这个大的趋势是什么呢 ?
就是我们刚才说在这个大模型时代 , 就是 infra 和算法会做深度的融合 , 尤其在我们说比如说我们现在的大模型的这个预训练的这个范式下面啊 , 我们现在如果大面上可以把大模型分成两个阶段 , 一个是预训练 , 一个是后训练 。
预训练就是我要构建一个很强大的基座模型 , 后训练就是我要更加的场景的特制化 , 什么强化学习的这些方式为代表 。在预训练的这个阶段 , 我想说的就是现在 infra 的同学和算法的同学应该是深入的融合的 。
你原来还是说你不懂 infra 的算法就不是一个好算法 ,不懂算法的这个你做 infra 的人不懂算法 , 你就不是一个好 infra。
原来更多的还说这个 ,但是我现在越来越看到这两个团队可能就是要融合在一起 , 或者就变成一个团队 。
就你这个团队里面你这个人, 你就是每一个人他都是既懂算法又懂 infra, 然后我设计出来的这个东西才能是一个更好的预训练的模型 。
预训练现在要解决的问题就是所谓的扩展性的问题 , 你的模型的架构高不高效的问题 , 对吧 ?
这一系列的问题其实你设计的第一天你就是要既懂算法又懂 infra,并且能够高效的实现这些算子的人, 要不然你怎么判断我这个设计的这个是不是高效呢 ?
就可能原来跨学科还是锦上添花 , 现在变成了这个 , 如果你不会的话 , 你可能就竞争当中你就直接就输掉了 。
对 , 你就设计不出来一个很好的这个预训练的这个模型了 。 预训练的模型决定了你最终的模型的架构的扩展程度 , 你的成本 , 现在最最重要的竞争的要素可能很大程度上是在这个预训练上面 。在百度会怎么去通过一些组织上的调整 , 或者这个人才激励上的调整来让算法和 infra 的这两个团队更融合吗 ?
或者招到更符合的人才吗 ? 首先哈 , 我觉得我们现在看到的这个趋势已经很明显 , 就是我们现在的这个算法团队里面他就是有 infra 的人, 然后这些人也在也在有一些这个 transfer 啊 ,有一些这种互相的影响都存在 。
就或者说我搭建一个算法团队的时候 ,他里面天然第一天第一天成立这个团队的时候 ,他就是要有一部分算法的人, 有一部分 infra 的人。
这个是一个和之前大家做算法很不一样的点 。 大家可以看现在的新成立的这种 , 你就想真正做这个大模型创业的公司也是这样的 , 就是你看现在的那个新出的 , 比如说什么什么 Thinking Machine 啊什么这些公司 , 你看他第一天他就会招算法和 infra 的人。
所以我觉得这个已经大家现在已经是这么干的 , 这个已经已经发生了 。 第二就是说那你说这个我用什么方式能够让他们在一起这个工作的更紧密 , 对吧 ?
我觉得本质上还是你得有创新力 。 为什么大家现在又回到我们刚才说的人才的这个话题 ? 为什么大家现在这种 talent 的人才这么贵呢 ?
就你就得有创新力 , 你都有有创新力 , 你第一天你就是做算法的人 ,他对 infra 就了解 ,infra 的人也对算法足够的了解 。
大家在一起碰的时候 , 你就能碰出更多的火花 , 你就能设计出更好的东西来 。 我比较欣喜的看到的一点就是说现在从大学刚刚出来的这些人啊 ,他就在这个时代的环境的熏陶下面 ,他就会天然的他的全栈的能力比我们当年要强 。他就可以可以从应用一直做到做到算法 , 做到 infra, 做到基础架构 ,他都知道 。
就这种比较好的学生 , 比较 talent 的学生 ,他就都会了解 , 然后这种学生也是我们觉得最好的学生 ,他就有这种 sense, 然后他也有这种想法 ,也有这种创新力 ,他来他一定就能做出来更好的成果 。
如果要对大家说的话的话 , 就是这真的是一个很美妙的时代 , 大家应该能够更好的去融会贯通的去打通我们的技术栈 , 然后去了解这些东西 , 然后其实也没有那么复杂啊 。
当你真正想去学习这些东西的时候 , 你去掌握它的精髓的时候 ,也没有那么复杂 。 然后你去掌握这个全栈的能力 , 从应用到算法到架构的技术能力 , 一定会让你的这个职业的道路有更好的发展 。
结尾1:10:53
蛮好的 , 对 , 这是一个很美妙的时代 。 对 , 我们今天也非常开心啊 , 就是这个雁鹏做客十字路口 , 我们分享了非常多 ,不管是之前做 infra 的这个整个历史 , 还是今天就是在呃 AI 的这个大的时代下面 , 从美国到中国 , 大家做 infra 的不同的思路和你的一些预判 , 然后最后又给了这个今天刚毕业的学生们一些建议 。
对 , 然后也谢谢雁鹏 。
好的好的 , 感谢啊 。
如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 。 最后欢迎你加入十字路口的会员群 , 我们鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。



