“我想击碎你们对于 AI 不切实际的幻想，并重建一个正确的认知”| 对谈李乐丁，战壕里的百度主任架构师

开场0:00

Host0:02

欢迎收听《十字路口》，我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻，形容它站在科技与人文的十字路口，伟大的产品往往诞生在这里。AI 正在给各行各业带来改变，我们寻找、访谈和凝聚 AI 时代的 " 积极行动者 "，和他们一起探索和拥抱新变化、新的可能性。

Koji 杨远骋0:31

我是主播 Koji 杨元澈，是《新世相》和《躺岛》的联合创始人，也是一个正在积极行动、投身 AI 的人。

Host0:42

今天做客十字路口的嘉宾，是我认识十几年的好朋友李乐丁李老师。我们一起自驾去内蒙古，一起吃遍了北京的日料，聊着五花八门的天，见证着彼此的成长。

李老师在 2010 年的前后就加入了百度，作为主任的架构师，一直承担着最艰巨的任务。如今科技行业普遍共识，生成式 AI 将成为未来最重要的、规模最大的技术基础设施。在生成式 AI 之前，科技行业的历史上最重要的、规模最大的两次技术基础设施的建设分别是搜索和云服务。

而李老师在百度的 12 年工作履历当中，前 6 年是搜索的架构师，后 6 年是云服务的架构师。可以说经历过这俩大规模的技术基础设施的架构师，放眼全球也屈指可数。

要胜任大规模基础技术设施的架构工作，不仅需要对技术有深刻的理解，还需要对系统中每个角色和环节也有深刻的认识，才能制定出有效的系统性策略，完成架构设计。在当今的 AI 领域，各种观点层出不穷，许多人言辞激烈。

然而值得注意的是，今天在积极发言的大多数都是行业的观察家，尤其是媒体老师和投资人。

因此我们邀请到李老师，来与大家分享生成式 AI 的过去、现在与未来，正是基于下面的这个原因：只有在战壕里面的人，才能听得到炮火的声音，并且只有经历过同等规模战役的指挥官和架构师，才听得懂炮火中的深意。

Koji 杨远骋2:17

我们都很受不了那 " 今天 AI 中文自媒体三天一革命、五天一颠覆 " 这样的标题党的风格。所以今天我们想聊的是一期关于 AI 的常识对谈。

用李老师他过去告诉我的话来讲，就是：我想击碎你们对于 AI 不切实际的幻想，并且重建一个正确的认知。

击碎幻想2:38

Koji 杨远骋2:38

所以今天想请李老师和我们聊的第一个问题就是：你认为今天有哪些普遍的对 AI 的不切实际的幻想呀？

李乐丁2:47

哈喽，元澈你好，很高兴能够一起录播客。说到不切实际的幻想，首先我觉得先声明一下，今天我们所说的所有的 AI 都是生成式 AI，Generative AI，也就相当于是我们的大语言模型 LLM。

后面我们所提到的所有的 AI 都是指的生成式，除非我们专门明确地去说明这一点。这个市场上现在大家对于 AI 不切实际的幻想，我觉得会分成几个层次。

最浅的一层就是觉得 AI 有智慧，AI 就是人，甚至由此会想到 AI 会大量地替代人类，消灭人类的工作，甚至对人类造成威胁。

我觉得这是最浅的一个不切实际的幻想的一个层次。中等的一些可能会认为 AI 已经展现出了部分的智慧，因此会快速地走向 AGI，会快速地改变我们整个的行业，由此延展出来说会需要极大规模的 GPU 或者是算力，甚至说改变整个世界的能源格局。

比较高级的就是虽然认为 AI 不能很快地发展到 AGI，但是能比较容易地集成和改造现有的软件，所有的软件都会被 AI 立即吞噬掉，让大公司会被颠覆。

任何个人、组织，甚至是国家如果不现在 all in AI 的话，就会落伍，就会被淘汰。这些想法都是错误的。

Host4:16

所以听起来是你对于今天大家对 AI 的这种极度乐观的一些观点，是持相对理性的一个态度。

李乐丁4:25

是的，我可能会更接近于 LeCun 的想法，认为 AI 仍然需要更多的技术突破才能达到我们想象中的那种可以与人完全等同的智能体。

Host4:43

你觉得今天为什么会有那么多不切实际的幻想呢？这背后是因为比如说经济不好，或者说因为整个行业其实大家看不到新的梦想或者愿景，或者是资本市场在催生泡沫。

李乐丁5:01

如果简单说的话，我觉得有这些幻想的一般是因为没用过 AI 或者是没做过 AI，当然也有少部分是因为当了英伟达股东之后人言不由衷。

我认识的很多专业做这方面的同学，特别是之前几年都做过 AI 的同学，一般来说都是比较冷静的。

大家对 AI 的能力当然大家都很欣赏，都觉得这次是一个巨大的突破，但同时大家也会发现它的能力范畴是有限的，它很有用，但是要用对地方。其实从根本原因上来说，我觉得是因为没有人去很好地向大家去解释 AI 的原理，就导致多数人只能通过看一系列的 demo 做出一些主观的感受。

你知道人类永远是乐观的，我们看到一些好的例子就特别容易线性外推，然后觉得 AI 无所不能。

我觉得今天可以跟大家聊一聊在原理方面的问题，就是 AI 从本质上来说它就是一组数学公式来拟合人类的语言规律。

我们现在暂时先把 AI 我们化简到 LLM 大语言模型，后面其实包括多模态也是同样的。所有目前看到的 AI 其实都是通过数学公式来模拟人类的语言规律。

我们把这组数学公式称之为神经网络，但如果通俗地说，大家可以大概地想象成就是一个 N 元 N 次方程，这并不神奇。

我们上小学的时候大家就学习一元一次方程如何解，二元一次方程如何解，到了初中就会讲一元二次方程怎么讲，然后更高元更多次的方程。

到了大学学了高等数学，线性代数会学一个叫做矩阵的东西，这个东西被发明出来就是拿来解方程用的，所以方程并不复杂。

然后我们在问 AI 问题的时候，实际上是将这个 prompt 文字代入这个方程，然后方程就会算，它会计算出跟这批文字关联概率最高的下一个字，然后不断地循环往复，AI 就能一个字一个字地给你做出回复。

比如说我提一个问题：中国的首都是哪里？问号。然后这个神经网络或者说这个高次方程就能够算出北字与前面概率最高，于是它先输出结果就是中国的首都是哪里？

问号北。然后你再将这个话再输入方程，它会算出京，然后你再把前面带上京，整个这句话输入方程，它会给你一个特殊的字符叫做结束。OK，此时你就知道 AI 给出了答案了，你把前面的截断后面拿出北京来，这就是 AI 的所有工作。

所以你看到现在的这些 AI 工具，它一个字一个字地给你输出结果，不是因为它做了一个 UI 特效，就是它背后的工作原理。

所以整个过程中我们可以非常明确确认 AI 是没有任何智慧行为的，它不做任何思考，它根本不知道中国的首都到底是哪里，它只是知道北京和中国的首都这两个字关联度最高。AI 只是规片上的一段程序，它用数学公式来算概率，也仅此而已。

那么咱们再往深入稍微说一说，就是这个强大的公式又是如何得来的呢？其实这件事情同样也不神奇，方法就是用大量人类的高质量文本进行训练，训练方法就类似于小时候的错题本。

比如说咱们还是先从公式角度来说，比如说我这个方程，方程很多，有很多变量，比如其中某一个 x 变量，我原先让它等于 0.5，然后恰好就发现当它等于 0.5 的时候，我能够非常好地去拟合一号文本的文字，我拟合得非常准。

然后下一步发现到了二号文本的时候，这准确率下降了，比如说下降了到从 98% 下降到 85%。OK，减了 13%，然后我就用这 13% 去调整原先那个 x 变量，把它往下调一点，从 0.5 比如说调到 0.45。

这时候我就发现两个文档拟合得都非常准，如此循环往复，我去拟合一个、两个，乃至我拟合到一百万个，甚至是一亿个。

这样的话最后我可能每一个变量都得到一个特殊的数字，比如说 x 等于 0.45184，然后 y 等于 0.98772 等等这样的数字。

这些数字能够恰好准确地拟合它学过的所有的文本，这样你就得到了一个自己的 AI 的模型。听起来并不复杂，对不对？

只不过在这个过程中需要大量的消耗数据和算力。通俗地来说，这就是一个用错题本来背教科书的学习方法，有点低效，但确实能背下来。

Host9:45

所以其实你会认为，如果更多的人知道了大语言模型背后的基本原理之后，一些不切实际的幻想就会被自然地消灭。

它并不是一个真正的所谓的你看不懂摸不着，像魔幻魔术一样的一个智能体。你会认为就刚才提到的这些不切实际的幻想，它今天有给这个行业或者有给我们作为这个行业里面的个体带来哪些伤害吗？

李乐丁10:09

我觉得这里面其实我并不喜欢的一点就是我们今天有太多的媒体，甚至是一些组织在给大家贩卖焦虑。其实我刚才尝试给大家讲解 AI 的原理，我不能确定我讲的是最易懂的，是最通俗的，但至少我愿意去讲。

很可惜的是这个市场上的主流声音是不讲原理，只贩卖焦虑，只给你看 AI 表现好的例子，告诉你再不上车马上就要被时代抛弃了。

于是人们就会在恐惧的情绪中，带着大量的错误认知和不切实际的幻想，参与一件自己根本不理解的事情。

Host10:50

之前也有一个观点就是说泡沫它会很像啤酒，就是啤酒虽然有很多泡沫，但是啤酒到最后还是会有酒的，它需要一点时间，这个泡沫会自动地去掉。

但是如果没有泡沫的话，这个啤酒可能也不好喝了。所以这背后在讲的就是一个事情，它这个泡沫可能它有它的合理性，但这个事情你会怎么看？

就是放到今天我们说到 AI 不切实际的幻想这一系列话题的时候。

李乐丁11:14

我觉得泡沫是必然出现的，任何一个新科技出来的时候，大家都会产生提早的过量投资，都会有泡沫。

这是人类乐观性的一种表现，也是人类我觉得是人类最重要的一个品质之一。所以没有必要说因为有泡沫我们就觉得这个市场怎么样，多么地不好等等。

泡沫是值得去迎接的，但是同样也要看到它真的是泡沫。就好像前面元澈说的，我不是为了喝泡沫，我只是为了追求它的一些口感带来的一些中间的作用，最终我是要喝底下的那部分酒。

所以看透这个泡沫去把后面的事情去做起来，我觉得才是更重要的事情，而不是说因为恐惧只停留在这个泡沫的阶段。

Host12:05

这是从 22 年底 ChatGPT 3.0 发布到现在差不多一年半的时间，我想知道在这一年半里面你的观点有没有发生过非常剧烈的变化，或者说有没有明显地分为几个不同的阶段。

李乐丁12:18

我觉得对于 AI 的观点而言的话，基本上是保持不变的。18 个月来我觉得跟我当时第一次见到 ChatGPT，甚至更早我会见到一些更早的这种大语言模型的时候观点是一致的，差别可能是对于市场的一些考量会不太一样。

我觉得之所以保持不变，可能很大原因就是因为我之前是做搜索的，可以说 AI 就是搜索孵出的一枚金蛋。

今天我们用到的大量的 AI 技术，无论是语言模型还是图像还是很多数据分析，其实这些都是由搜索去主推主导出现的技术，甚至说大语言模型这项技术本身它之所以被发明出来，就是搜索想用它去解决一些复杂问题的检索。

所以很早的时候大家所有做搜索的同时，大家就一直在关注着 AI，也一直去使用它。所以我们可能是这个市场上最早对 AI 有深刻了解的人，我们很知道它的长处在哪里，它的短板在哪里。

所以可能一开始就会有今天的这样的一个结论，我们很难认为生成式 AI 会直接一步跳到 AGI，我们难以相信 AI 这种被替代，它能够真正做出思考，能够直接颠覆软件。

但是这确实是一个改变整个行业的技术，所以所有人都值得去参与。

Host13:50

有意思，所以其实你从一开始到现在，对于生成式 AI 它到底能带来什么样的行业的变革的程度，是相对是一个比较稳定的一个态度。

李乐丁14:02

是的，比如说你看像 Sora 发布的时候，其实它给很多人带来了很颠覆式的这种感受。比如类似 Sora 的发布，或者类似最近 Luma 的发布，包括快手他们做的这个视频模型的发布，就有让你感到意外吗？

其实没有，坦白说意外的地方在于它能够在这个时间点做出这样的质量，但不意外的是它一定能做出来。

Host14:32

OK，你认为这个是一定会发生，只是时间早晚。

李乐丁14:36

是的，可能比你想象中稍微早了一点。对，我觉得 Sora 比我预期的要早一些，但中国公司在做 LLM 的进展比我预期的要快。

我在去年初的时候，当时跟我的朋友做了一个预言，我认为到去年底的时候，国内的一线公司都能做到 ChatGPT 3.5 的水平，而到今年中的话会做到 GPT-4，但实际上大家都提前了，大家都提前了至少一个季度来完成这件事情。

搜索之争15:07

Host15:07

有什么观点，尤其是在我们关于 AI 这一波的浪潮里面，有什么观点，有什么共识是大家普遍认同，但是你一直不认同的，而且最后你的观点 eventually 还得到了验证。

李乐丁15:21

这种还是蛮多的，我觉得很有意思的几个，一个是很早的时候大家就很多人会觉得 LLM 会替代搜索，因此 Google 会被颠覆，尤其是在去年初的时候，很多人说搜索引擎的经济模型不存在了，然后 LLM 非常的昂贵，从此将不会有 Google 的机会。

这个我从来不认同，因为当你真正做过搜索的时候，你会发现并不是因为搜索错过了生成式 AI 这套技术，而是说搜索主动地觉得我们不应该过于激进、过于早地将生成式 AI 用到搜索产品上。

因为当你的产品已经被简化到一个搜索框的时候，你就必须为它的质量负责。在一个真正的搜索引擎中，面对大量的长尾问题，面对质量，面对权威性问题，面对时效性问题，面对准确性问题等等，现在的生成式 AI 仍然会存在幻觉。

所以至少在一年前、两年前或者是更早的时间，虽然搜索已经拥有了类似的技术，但是我们不会过于激进地把它直接用到产品当中。

Host16:45

其实今天还有一个大家普遍认为的共识，就是 AI 应用大家都做得很艰难，在摸索各个方向，寻找商业闭环都很艰难，但有一个共识好像是搜索，尤其 Perplexity 它的表现好像还不错。

但是我想确认一下你的观点，其实并不是说 Perplexity 没有价值，而是它可能永远无法取代 Google。

李乐丁17:05

是的，Perplexity 实际上是非常有价值的。我们在十年前做搜索的时候，其实大家都有一个非常重要的问题，就是我们希望让搜索能更好地回答知识类问题。

你问一个问题，如果它有明确答案，比如说就像我前面举的例子，中国的首都在哪里，你应该直接回答北京，绝不应该说给十条链接让你去搜去查去点。

Host17:27

你这么一说想起来，10 年前后我在百度实习过，当时实习参与的项目之一就是百度阿拉丁。

李乐丁17:34

Yes，是的，阿拉丁就是回答你的问题。然后到那个时候做的阿拉丁超级简单，比如说北京天气如何，它会给你天气的答案，只能做到这个程度。

阿拉丁是百度很早的时候就做出的一个非常重要的尝试。我有一段时间是负责整个阿拉丁的技术架构，所以这块来说的话，当时用到的技术跟现在相比最大的差别就是我们缺乏生成式 AI 能够把输出的内容变得更漂亮，变得更易读。

所以我们只能给出一些比较简单的答案，但由搜索直接给答案这件事情是所有做搜索的人从第一天开始就想做到的事情。

所以 Perplexity 一定有价值，但是这里的问题在于你需要先保证它有一个良好的搜索，因为在面对长尾的时候，单纯靠大语言模型它很难做到信息的准确性、有效性和无伤害性，这些需要搜索来解决。

我们来想是搜索增加一个语言模型容易，还是语言模型反过来重做一套搜索容易，应该是前者。

Host18:44

当然是前者。在这个里面你会觉得 Perplexity 它用什么样的做法还能够在 Google，比如说未来火力全开，把该做的都做了之后，还能赢得它的生存的一席之地吗？

李乐丁18:57

我觉得只要你站在用户体验的角度来说去思考问题的话，总可以。其实 Google 当然我们所有做搜索的人都很 respect Google，但是我们一直也有一个对 Google 的诟病，就是它做的很多事情是过于 engineer 导向，过于技术导向。

很多问题如果你站在一个技术人员角度来看，它简直强大得无与伦比。但是如果你站在用户体验的角度来说的话，确实还有改善的空间。

所以 Perplexity 如果能够完全从更多的从用户体验的角度去出发，去不仅仅是让大语言模型把文字写漂亮，做出更多的交互，做出更多的这些多模态的改进的话，它仍然有一席之地。

只不过我很难相信说它会完全颠覆 Google。

Host19:48

它可能是一个补充。当我们说到搜索的时候，除了 Perplexity，今天还有一个去针对比如说 to be，它说因为每个企业有自己的专业知识，所以我用 RAG 来增强做搜索。在这个事上你会怎么看？

李乐丁20:03

我觉得 RAG 是我们对于 AI 一个必不可少的内容，因为从 AI 的能力角度来说，它会不可避免地存在幻觉问题，它会不可避免地存在一些错误和遗漏的问题。其实回到技术原理来说，就是因为 AI 它是一个被替代，它遇到问题的时候，实际上是从它的记忆库里面翻书，但它又不能确定我翻的书一定是对的。

所以 RAG 就提供了一个非常好的补充，因为我提前去做 retrieval 这样的过程，我就可以通过一系列的确定性算法来保证你翻的书既全且对。

所以这件事情对于整个 AI 来做的话，我觉得可以说是一个必不可少的内容。

Host20:47

所以你是认为 RAG 有它的重要性，而且这个重要性感觉随着模型能力的不断进化，它永远都是有必要的。

李乐丁20:54

是的，因为今天我们能够用到非常强大的模型，GPT-4 或者 Gemini 等等非常强大的模型，这些模型都是用上千亿的优质文档去训练的，所以它本身就包含大量的知识，大量的优质的高质量的知识。

所以如果你将它应用到一些人类常识性偏多的，特别是公共常识性偏多的内容的话，其实它们直接回答是非常好的效果，这类是非常好的。

但是一旦我们进入到了企业领域，进入到了专业方向的时候，它们恐怕就不合适了，因为大量的专业知识不出现在公开网络上，大量的专业知识是被局限在企业内网中的。

这里不仅仅是公开的问题，甚至还有大量的知识产权和 legal 的问题，所以这样的内容是很难进入到模型当中的。

因此我们就必须通过一种方式将这些知识注入到模型当中，这也就是 RAG 为什么会产生的原因，它会引入一系列的 embedding 的技术，一些向量搜索的技术来把这些知识输送给模型，模型再去进行加工，进行摘要，进行合并，然后给出答案。

Host22:12

因为今天其实做这个领域的创业的公司也不少，大家会提到各个甲方，它会有自己的内部的专业知识库，所以用 RAG 的方式来给甲方做专属于它的一个 chatbot。

你会认为这样的一批公司里面大家都做 RAG，我们能怎么说谁做得比别的更好吗？

李乐丁22:34

这一点其实我觉得很有意思，其实做 RAG 的时候，谁先明白 AI 是关键要素中最不重要的那一点，可能谁赢。

Host22:46

这个怎么讲？

李乐丁22:47

因为我们还是回到为什么会产生 RAG 这个过程，因为看到这里真正缺的是数据，是企业那些垂直的数据，然后当你已经把数据检索出来之后，实际上已经变成了一个开卷考试，就是十几篇文档对它做摘要总结。

这时候用什么样的 AI 模型效果都不会差太多。重要的一点就是如何能够准确地找出这些文档。这个过程只用一个简单的向量搜索，实际上是不够的。

我们在几个月之前，其实我集中聊了很多的创业公司，甚至有大量的向量搜索，当然这个技术是重要的，但单纯的只想只用向量搜索，想要解决复杂检索问题，将会面对很大的困难。

实际上今天大家很多 RAG 公司做了一段时间之后，就会发现要把原先搜索的那套流程再引入回来，向量搜索只是拿来做召回，召回之后需要做第二次的精排，精排之后还要插入多样性，再做一个 re-ranking，通过几个阶段的共同协作，既有向量检索，也有其他传统的检索技巧之后，才能得到一个有效的供 AI 去处理的内容。

所以可能就是谁先发现 AI 模型反而是这里最重要的中最不重要的那一个，可能有点拗口，谁能够提前发现解决数据的问题，最重要可能谁会领先。

Host24:25

因为大家看到海外 Perplexity 的势能很好，所以其实国内的大厂几乎都在做。你自己在什么情况下，现在就是从个人的体验出发，会选择去用 AI 搜索，而不是用 Google 或百度搜索，有这样的场景发生吗？

李乐丁24:41

我在搜索大部分知识类的内容的时候，现在基本上都会使用 AI 模型，因为它会能够比较好地直接总结出答案。

但是在知识之外，或者说一些更复杂的知识的时候，我还会用搜索，因为这里有一个差别在于，可能只有做过搜索的人才会有一个切身体会，就是用户很多时候他不是要一个唯一的答案，比如说一些复杂的知识，他就是要看正面和反面，他要看积极的一点，他要看消极的一点。

所以搜索重要的一个能力是要提供多样性。之前经常有人举一个例子来证明未来的 AI 会取代搜索，就是说让 AI 去帮你做旅游规划，现在的搜索你要查很多的 query，翻很多的页，看很多不同的 app。

创业方向25:18

李乐丁25:34

今天有了 AI，我可以直接你告诉我你的需求，我来生成一个旅游规划。

Host25:39

没错，这是一个热门创业方向。

李乐丁25:40

But it's wrong。之所以 wrong 是因为两个原因，第一，大量的用户之所以在搜索中不停地变换 query，不停地查，是因为它的需求根本没有明确。

人类的目标经常是在翻阅资料的过程中才被明确下来的，这是我们做搜索得到第一个最重要的经验。

所以搜索不一定非得要追求首条结果的绝对精准，我们要追求的是前十结果都要给你足够的有效的答案，让你去翻页。

所以用户会天然性地选择换 query，这是第一点。第二点就回到人性的角度，如果别人给你一个旅游攻略，你直接使用的话，那么这旅行社也太容易开了，实际上不会有人这样做的。

所有人给你一个参考之后，你都会提出自己的意见，需要修改。一旦引入修改，大家可以想象，我是在屏幕上快速地点击触控，效率更高，还是说靠语言跟他说请把第四段下午的行程换成什么更快呢？

Host26:47

很多时候 GUI 的交互是更简单明了的，而 LUI 就所谓语言交互，其实很费劲，说话是一个有点累的事情。

李乐丁26:55

是的，其实这一点我个人非常认同，我觉得在探索的过程中去把旅行计划给制定出来，这个才会让我对旅行充满期待和信心。

如果直接丢了一个旅行计划过来，哪怕是一个旅行大佬或者关系很好的朋友，他刚去过比如说东京，他给我说这三天可以这么玩，我拿到一个这样的行程，我自己是一定会再去到处搜到去看，再去做调整做补充，最后我才拿到一份自己觉得满意的，我跟着他看可以不错过我想要喜欢的各种各样的东西。

所以这个确实很有意思，以旅游攻略为代表的创业的，尤其是在 AI agent 那一波，很多人举的例子，当然直到今天都还是就输入一句话快速给你一个旅行攻略，但是大家好像忽略了中间探索的重要性。

Host27:50

是的，有时候大家我觉得前面的这 18 个月来，大家创业的时候往往会有一个误区，其实也是前面说的不切实际的幻想所带来的一个结果，就是大家过于依赖 AI 的能力，似乎感觉只要用了 AI，原先所有的问题都不复存在了，都可以由 AI 模型来智能化的解决，这是不正确的，还是应该配合你对于产品的理解、产品的设计，然后才来做到。

还有什么和这个类似的例子吗？

李乐丁28:23

其他其实还是旅行订机票之类的事情。

Host28:28

今天也有很多人说用 AI 帮忙订机票订酒店，这个会颠覆掉携程，这个你怎么看？

李乐丁28:35

这个同样也是需要更多的产品构思在里面，而不能直接地利用 AI。类似的还有比如说直接用打车，我可以用 AI。其实这里有个问题，你稍微想一下会发现，比如说人在打车的时候，首先要决策我是个人报销还是公司报销。

我打车的时候我是坐一个豪华车还是坐一个普通车，我坐飞机的时候这次拆标是能保证我坐经济舱还是我要升舱等等一系列的问题。

你选择航空公司，你要选择大飞机小飞机需要选择，哪个机场需要选择，上午去下午去需要选择，是不是方便你改签你也要选择等等这一系列问题。

它是不会因为看到你的 calendar 写了今天下午 3 点我要飞北京或者我要飞上海的时候，就直接订出来机票你马上选择 OK 的，这个只有老板和他非常熟悉的助理才能做到。

而助理之所以能熟悉老板，实际上很大程度是因为它能影响你的选择，而 AI 做不到这一点。

Host29:39

助理之所以最后让老板接受了他的安排，很多时候是因为他能够用各种方式说服老板，但是 AI 其实做不到，老板永远在挑剔 AI，而且你也没有说服老板的机会。

以及我觉得在订机票订酒店这样的低容错度，就是多选择项的工作任务里面，可能确实不太适合。

我们可以正好聊一聊，你会认为什么样的应用场景是适合今天用生成式 AI 去解决的？

李乐丁30:08

这个问题其实是我觉得是我过去 18 个月来最重要考虑的方向。我现在把它总结为两个要素的叠加，就是高毛利加高容错的场景，是非常适合今天生成式 AI 使用的。

从高毛利角度来说，就是因为今天的 AI 普遍仍然是比较贵的，当然这一点我也有一个跟市场不一样的观点，就是 AI 的成本会快速下降。

我非常不喜欢 18 个月之前 ChatGPT 刚出来的时候，大家会算出那些天量的 GPU 和天量的成本，我会跟他们说完全不用这样去算，你直接去掉两个 0，因为没有人可以用模型车的价格去算量产车，它是没有经过任何工程优化的。

我当时就可以说我有很多的工程化的手段，可以直接把它下降一个数量级，下降两个数量级都没问题。

事实证明现在不仅是便宜了，甚至国内都开始打价格战了。当然 anyway 现在 AI 的价格仍然是有一点小贵，我只是说这个可能长期而言不是个最大的问题。

所以剩下来最重要的要素就是容错性，AI 现在而言仍然需要一些高容错的场景。

Host31:23

高毛利和高容错，它们会指向比如说具体举一些例子呢？

李乐丁31:29

具体来说的话，其实高毛利加高容错就是最容易想到的低垂的果子。所以目前来说能看到的生成式 AI 的大规模商业落地两个，一个是数字化广告，一个是云上卖卡。

数字化广告其实基本上所有的一线互联网公司，无论国内还是海外都已经用，不仅仅是尝试，而是实际上都已经上线了。

它会通过生成 AI 帮助你生成更好的广告文案、广告内容、做更精准的广告投放等等这些东西。

从最近 Meta 放出的论文上来看的话，在 Reels 使用生成式 AI 的话，可以直接将观看量拉 10 个百分点，这还仅仅是一个论文里面的一些相对简单的实验。

所以我们可以看到它对于数字广告是有非常大的拉升作用的，而数字广告是明显的高容错场景。

咱们还回到搜索，搜索错一次其实没关系，搜索给的 10 个答案里错一点也没关系，搜索给出的唯一性答案如果其中有一定错误，实际上大家同样可以容忍，只要你给出出处都可以容忍。

这些就是典型的低垂的果子。

Host32:40

听起来这些都不太是创业公司的机会。

李乐丁32:43

创业公司的机会肯定不在这里，低垂的早被大厂们都抢光了。创业公司我觉得机会还是在中容错的这样的场景里，但到这里就必须引入更多的产品思考和工程技术，绝不能只依赖于 AI 能力了。

Host33:02

我理解在过去 Reels 也好，抖音也好，他们其实用的都是相对传统的推荐算法。今天其实他们在决定下一个视频怎么推荐的时候，他可能参考了生成式 AI 的一些逻辑，这个可以稍微展开介绍一下生成式 AI 怎么去帮助做推荐吗？

李乐丁33:18

Meta 其实在最近的论文中给我们做了一个很好的讲解，就是传统的 AI 模式一般来说的话是来自于 Google 早期发出的一个称之为 Widen Deep 的一篇论文。

它这里讲的就是将你的大量的个人属性信息，比如说你的年龄、性别、你来访问多久了、你大概住在哪里、你的购物、你的经济能力等等，其实这些都可以算出来，但脱敏的都可以算出来，以及说你最近看过哪个帖子、点过哪个东西，可以把这些所有的信息输入作为 AI 的参数，然后它可以计算出你最有可能喜欢的内容。

这是目前的普遍做法，基本上所有的互联网公司在做推荐的时候都会使用类似的套路去做，但这里会带来一个问题，就是它看到的是一个静态的你，它看到的是站在今天此时此刻你点过什么。

但问题是人的喜好偏好会随时间改变，同时人还有一个非常重要的特点是人的短期偏好和长期偏好是不一样的。

比如说我之前给在也是一个 share 中，我举过这样的一个例子，就是如果你喜爱音乐，我问你是 Beethoven 重要还是 Taylor Swift 重要，我想大部分人会回答前者，但如果问今天你想听谁，大部分人会选择后者。

所以这就意味着我作为一个推荐引擎，我不仅要依靠你的短期偏好，会大量地推送 Taylor Swift，会大量推送流行音乐，我也需要参考你的长期偏好，适当地插入 Beethoven，插入古典音乐，插入其他的各种各样的音乐类型，如此才能拓宽你的视野。

这对于个人和对于推荐的公司在商业上都是有利的。这个稍微有点绕，其实是这样的，生成式 AI 它本质上是学习一个语言序列，就大模型，我们的语言可以够是一个句子是有一系列的字算出来的，我只要往前看很多的字，我就能更好地去推算出下一个字。

然后它生成是推荐的，它是把你过去沿着时间线的行为，每一个行为它就当成一个字来看，因此你的过去整个行为就形成了一个抽象层面的句子，这个句子描述了你过去的历史，这时候我能预测你的未来。

Host35:53

明白，所以用到今天的各种各样的推荐系统都有它的通用普适性。

李乐丁35:58

Exactly，是的，包括 Sora，其实 Sora 之所以能够做这么好，Sora 最大的改变是什么？是我的视频生成有了非常强的稳定性。

之前我们看很多的文生视频的问题，就是几帧之后那人就变了，那动作就改变了，它不稳定，而 Sora 能做到长达一分钟的时间稳定。

之所以能做到这一点，就是因为它把每一帧当成了一个抽象的字，你的整个视频就是一个抽象的句子，我可以往前看很多的帧，这时候下一帧的动作就能保证内容的连贯性了。

Host36:37

所以尤其放到小红书、放到抖音这样的推荐平台就更容易理解，我看的下一条视频、下一个笔记是根据我历史上看的成千上万个序列它来推测出来的，这样的推测方法用了生成式 AI 类似的一个方式，所以它会有效率的提升、准确度的提升。

所以在 Facebook 发的 paper 里面 Reels 就提升 10% 的 DAU。李老师你看了非常多的 AI 的创业项目，然后到现在为止你觉得你看到了哪些闪光点，以及看到了哪些大家身上普遍的问题？

李乐丁37:11

OK，我觉得

两方面的闪光点，两方面，一方面就是可以看到基础设施和基础技术在飞速的发展，这方面中国同样是有机会的，而且中国也必须有机会。

我们需要有自己的 AI 加速器，我们需要有自己的 AI 的训练框架，自己的 AI 优化体系，我们需要有自己的原创模型，这些都在快速的发展。

这是一个可以说这是一个体系结构的黄金年代。然后另外一方面就是在算法方面，可以看到今天的 paper 中出现了大量的华人的名字，甚至很多关键性 paper 的关键人物都是华人，那也就充分证明我们中国工程师不缺技术、不缺产品，我们缺的可能只是一个机会。

所以这些我觉得都是非常好的一点。当然要说到普遍的问题，我觉得就是 ChatGPT 套壳的问题了，这个问题我觉得可以分成三类来讲，一类基本上恰好可以对应这三个阶段，一类就是从去年初到去年中大概这头六个月时间，基本上会出现大量的直接套壳，就是给 ChatGPT 加一个 UI 做一个 app，然后出来做的这种产品，当然这些基本上现在都消失了

。之后中间就会出现很多产品，就是过度的依赖模型的能力。之前我们看到一些就是比如说做文生图的，大家都会说我要做文生图，我去替代游戏的原画师，然后等等，但实际做起来就完全依赖于 Stable Diffusion 的一些微调。

如果仅仅是这么做的话，其实你是很难打动游戏公司的。游戏公司需要的不是一个画匠，他需要的是一个艺术家，中间的差别需要我们的产品来补齐。

然后到了最近几个月，我觉得大家的套壳问题就是可能会发现 AI 直观的应用不太容易好找，于是大家都开始做大厂已经在卷的赛道了。

就是因为今天的每一个大厂都在拥有自己的 AI 模型，都在拥有自己类似于 ChatGPT 的产品，而他们为此提供的 AI 训练平台、GPU 云、一些 SaaS 产品，实际上就是他们模型的壳。

你不能在别人已经做好的模型上再做一个同样的壳。

Host39:45

所以这里你在说的是那些做 AI infra 的公司吗？

李乐丁39:49

也不能完全说 AI infra，我觉得是做一些 AI PaaS 类的公司，可能确实跟大厂相比的话缺乏特别多的独特性。

Host40:00

所以当刚才说到三个套壳问题的时候，前面说的是 ChatGPT 的简单套壳，但说到后面第三部分，我理解其实它是一个更广义的套壳。

李乐丁40:09

是的，所以这个套壳是比如今天我们看到有人会做大语言模型的路由器，或者有人会做大语言模型的调试的一个平台。

但在你看来就是这样的

项目，它可能是相对阶段性的，或者它到最后大语言模型这个公司本身很可能就会给它做掉。是的，我觉得无论如何，做一家公司最重要的是要拥有自己的核心技术，有一个人无我有，或者是人有我优的技术，而不是在别人的技术上去做一些加工整合包装，变成了一个传统制造业。

规模极限40:49

Host40:49

我们前面几期播客里面有一期是真格基金的管理合伙人戴宇森，他在和我们做访谈的时候提到在今天 AI 行业大家最关心的大问题，他认为有两个，第一个是 Scaling Law 的天花板在哪里，第二个是 AI native app 会在什么时候在哪里出现。

我也比较想知道李老师你对这两个问题的答案是什么。

李乐丁41:14

OK，宇森对这两个问题其实提的是非常有针对性的。在我看来就是 Scaling Law 的天花板，首先你要接受 AI 没有智慧，AI 不是 AGI，那么所有依赖于希望 AI 能够自主决策、自主规划、自主学习的这个目标恐怕是要落空的。

所以如果我们以 reasoning and planning 这个高标准来衡量的话，现状就是 Scaling Law 的天花板，即使我们继续 scaling，它也很难去做出特别大的改变。

就好像说你不能因为汽车是一个交通工具，就认为它会飞上天，这是原理性限制，你的马力再 scaling 也是没有用的。

但另一方面，我对模型在知识覆盖面变得更广，对它的速度、它的响应变得更好，以及对各种模态的覆盖这件事情又是非常乐观的，这块我们可以继续的 scale，每六个月可能都会有演进。

我觉得关键要看我们对它设定的衡量标准是什么。另外说至于 native app，我觉得就是今天全行业面临的问题，从能力范畴来说，我觉得就是我所说的，它适合于高毛利加高容错的环境，但这就导致现在容易被想到的场景可能都被巨头覆盖了，更多的是需要大家去好好的去思考探索的。

Host42:47

除了这两个问题，你还认为有哪些问题是今天非常值得大家关心的 AI 领域的大问题？

李乐丁42:55

我觉得大家对于这两个问题其实基本上觉得就是最重要的，但是我认为你应该只关心第二个，第一个其实不太需要关心。

未来趋势43:04

Host43:05

在未来的 6-12 个月，也有一个观点在说，如果还出不来大家都眼前一亮的 AI native app，很可能这一波泡沫就要原地爆炸了。在李老师你看来，未来 6-12 个月哪些是高度确定性的问题？

李乐丁43:24

首先我非常同意你的观点，就是我们已经等待了 18 个月，从一般的产业规律而说的话，如果 24-36 个月仍然出不来大规模的商用产品的话，可能大家对这个方向一定会有质疑的。

这就像 Gartner 那个曲线一样，它会落到一个落空的地方，然后再去涨起来。我觉得确定性比较高的其实是多模态的演进，模型一定会变得覆盖能力更强。其实前几周我们看到 GPT-4o 已经能看到它现在直接的处理视频、直接的处理声音，很可能在未来 12 个月之内我们能看到它直接与一些机械控制、与一些感知更多的传感器去连接，然后它能够

去在更多的领域中去进入。AI 我觉得从横向角度来说，它的触手是不断的去扩张的。我觉得高度确定的就是在纵向层面，就是 AI 的智力、AI 的理解能力这块，可能我们不能预期太多。

Host44:25

今天还有一个比较显著的趋势，就是模型好像在变得越来越小，端侧模型出来的速度好像比大家想象中更快。

李乐丁44:33

是的。

Host44:35

在你看来现在端侧模型最大的挑战有哪些？

李乐丁44:39

端侧模型的话，我觉得

没啥挑战。

Host44:44

没啥挑战，你会认为这个就是一定会发生，只是快慢的问题。

李乐丁44:48

对，一定会发生。

Host44:50

端侧模型它的发生会带来的机会你会认为有哪些？

李乐丁44:56

我觉得其实可能跟大家很多想象不一样的是，AI 已经无处不在了，它只不过居于幕后。我很喜欢 iPhone 的摄影，同时我也是 Apple Music 的重度用户，我每天离不开 AirPods 和 HomePods，但我很清楚的知道，因为我作为一个技术的人，我很清楚的知道它能够给我带来的这些体验大量的依靠于 AI。

Host45:20

依靠生成式 AI 吗？

李乐丁45:21

目前还不是，但它确实大量的使用了 AI，它的摄影是计算摄影，它的音频是计算音频，中间都是通过 AI 模型，包括我的手表去计算我每天的运动量、每天的身体状况等等，都是使用大量的 AI 来完成的。

Host45:39

而且都是端侧的。

李乐丁45:40

对，完全都是端侧的计算。所以对于这一点来，我觉得生成式 AI 一定会给我们很多的帮助。

比如说你看最近的 WDC 上苹果的演示，我可以通过在端侧的生成式 AI 让 Siri 变得更聪明，让 Siri 去操纵我的 app、操纵我的家庭的装置等等，这些都能够去改善我们的体验。

但是同样我觉得一个重要的点就是我很也是我很欣赏 Apple 的一点，就是它始终愿意把 AI 放到幕后，它把体验放到第一位。AI 是改善体验的一项技术，而不是直接把它丢在前台，直接给你一个 chatbot，让你去漫无目的的去和它对话，那样不是最好的体验。

Host46:27

就 Apple 在做这些事情的时候，都会从用户体验角度出发，它不会直接说我是一个 AI 手机。

李乐丁46:33

Yes。

Host46:33

对吧？因为今天好像除了 Apple 其他厂商全部发了 AI PC 或 AI 手机。

李乐丁46:37

是的，我觉得单独说 AI phone、AI 手机就没有意义，重要的还是通过这些 AI 技术，我为你改变了什么，带来什么新的不一样的体验，我为你以前的效率有多少的提升，这些才是重要的，而不是一个 AI 的噱头。

Host46:56

多数厂商会选择用 AI 这个噱头来卖卖货。

我也比较好奇，有哪些到目前为止你看了之后觉得挺眼前一亮的产品吗？

李乐丁47:09

我觉得在尤其是在基础设施方面，还是有蛮多新的创新的。我非常喜欢国内的一些就是在做 AI 基础软件的公司，比如说我们今天能看到很多做 AI 编译器的公司，他们的价值就是可以去打破 Nvidia 的垄断。

有了 AI 编译器，我可以在背后选择各种各样的 GPU 或者其他的 AI 加速器来使用 AI。如果有这样的产品的话，我们就不必必须依赖于 Nvidia，甚至可以在一定程度上去解决现在缺卡的问题、卡对我们卡脖子的问题等等的问题。

我觉得这些是非常有价值的工作，这是一类。另一类就是我们尝试去将生成式 AI 与科学去结合，比如说海外非常有名的 AlphaFold，通过生成 AI 我可以直接将各种各样的蛋白质计算出来，对将来的生命科学、对我们的医药、对我们健康都会有很多的帮助。

而国内在这方面并不落伍，我们有非常棒的创业公司、创业团队在做类似的事情，我们比美国人走得一点不晚，这些我觉得都是非常棒的。

Host48:22

所以提到的一个是在底层的技术架构上面的一些公司，另外一个是在前沿科学领域的一些贡献。在我们日常生活当中，就是对普通人来说，你有看到 AI 做的产品能对我们的娱乐、工作效率、生活中的方方面面产生让你感到眼前一亮的产品吗？

现在。

李乐丁48:45

坦白说目前还没有看到。

Host48:48

所以 Perplexity 你觉得它也没有到这样的程度？

李乐丁48:50

如果我只用它做知识，它非常好，但是很可惜我的搜索不可能只局限于知识上。这时候我的搜索需求中是割裂出两个产品的话，其实这不是一个很好的体验。

而且这些需求之间它是没有明显边界的，你很难准确的说判断出来我这个问题是一个高难度问题还是一个中等难度问题。

于是在中间的边界中就会出现我既要用 Perplexity 查问题，又要去 Google 上去校验一下，多看看不同的内容，这样带来的体验其实是不好的。

巨头策略49:24

Host49:24

因为今天几乎所有的硅谷巨头都在参加生成式 AI 这一波的浪潮，然后在这些巨头公司里面有谁的策略是你最看好的？

李乐丁49:33

OK，其实我觉得这些巨头其实大家都在打防守，因为如果我们还是回到刚才的根本性原因，AI 它是一项渐进式创新，只要没有 AGI，那么你的行业知识就是最重要的壁垒。

如果我们维持这样的一个假设的话，那就是 AI 既颠覆不了你现在的业务，那也同样不会颠覆 Mega7，也不会颠覆这些巨头们，因为他们的行业知识的壁垒只能更深，同时掌握了行业壁垒的最高形态，也就是生态。

那么对于他们来说，只要自己掌握 AI 模型不被落下，不会出现一些供应链的方面的影响来说的话就 OK。

所以我觉得大家其实看起来虽然是在进攻，但其实大家都是在打防守，而且做的都还是蛮不错的。而且站在他们的角度来说的话，AI 本身就是一件需要做的事情，就像比如说对于搜索来说，AI 是过去十几年间贡献最大的核心技术。Mega7 来说，每一家公司都有自己的业务，都需要 AI，他们一定会持续去做，只要保证就是每家都有自己的模型就 OK。

Host50:50

可以展开讲一讲你看到的 Meta 他们在怎么做生成式 AI 吗？尤其是当然大家都知道它做了些啥，但有没有一些是从你的角度来看，就特别值得留意一下？

它这个做法值得大家多花一点心思去了解和理解。

李乐丁51:08

OK，Meta 我觉得是这几家中对于 AI 可以说表现上最坚定的公司。一方面就是它很明确的要用生成 AI 去改造它的所有的核心产品，包括它的 Facebook、包括 Instagram、包括 Reels 等等，这些所有的推荐产品都要使用生成的 AI 去重构。

从他们现在给出的信息来说，也应该是很有很强的信心。当然 Meta 其实与国内的对标的公司相比来说，可能他们的短期的成果会更高一些，因为国内的公司在使用 AI 的激进程度上实际上是比 Meta 更高的，所以它可能是一个更低的起点，所以可以能更快的取得收益。

这一点其实大家要充分相信，我们中国的公司并不差技术，也不差产品，也不差创意，可能我们跟美国公司差的只是暂时还没有拥有全球市场。

另一方面，可以说整个 AI 行业都要感谢 Meta 的就是 Llama，Llama 3 基本上为所有的从业者指出了一条明确的道路。

因为是这样，我们可能并不需要担心 AI 的核心技术原理不公开，因为这些原理是大家普遍都知道的。

神经模型、网络大家知道、反向传播大家知道、梯度优化大家知道，然后通过大量的文档去打磨权重等等这些技术我们都知道，我们不知道的是具体的技巧。

对于 AI 这样的一个产品来说，你的输入文档选择什么样的配比，比如说你要使用多少的 Wikipedia 和百科的内容占比是多少，使用多少网页的比例是多少，使用多少书籍的比例是多少，这一点是将明显的影响最终 AI 模型的表现。

而如何得到这样的配比和参数是需要大量的不断反复实验才能得到的。很多人可能会说我一个 AI 大模型公司，我可能要 10 万张卡才能完成模型训练，其实真的训练的时候用不着这么多，真的训练的时候 1 万张都够，剩下那 9 万张干嘛去了？

就是做实验，不停的做实验，需要找出最好的数据配方，需要找出最好的参数配方，需要知道我要训练多少轮、迭代到什么程度、我的学习率是多少、我在收敛到多少的时候是稳定的等等这一系列的经验，都是需要大量的时间去打磨的。

而 Llama 的出现直接基本上告诉了你 best practice 是什么。

Host53:54

就大家开学作业了已经。

李乐丁53:56

是的，所以有了 Llama 的话，大家就知道模型到底是什么样子的，与我们之前想象的是一样的，只需要花时间去打磨参数就 OK 了。

Host54:07

为什么 Llama 是出于什么样的考虑愿意把这样的答案直接开卷给大家呢？

李乐丁54:13

我觉得是为了培养生态，其实这是一个非常好的一样的态度。美国在这方面确实走得更领先一些，但当然中国的公司也在现在正在做，过去几年之内大家都在非常努力的做生态，因为最顶级的公司它的核心壁垒就是有一拨人愿意在你的平台上去开展自己的业务，只要这些人能够在你的平台上把自己的业务做好，你的平台就是不可被打败的。

所以从这个角度来说，Llama 去做一个开源的生态是非常明确的选择。

Host54:56

我们再说说 Microsoft，你会怎么看 Microsoft 今天它的一些战略和选择？

李乐丁55:01

我觉得微软可能是所有几大巨头中，虽然我觉得大家都在打防守，它是相对来说最偏进攻的一家公司，可能跟很多人感受不一样的地方就是微软今天是一家纯粹的云计算公司，Windows 已经不重要了，所以不要去吐槽 Windows 11 做的不好，人家就没打算好好做了已经。OK，微软是一家纯粹的云计算公司，Azure 在整个云计算的格局中已经是非常稳固的一个状态，所以对于微软

来说，涨到今天 3 万亿就是它 deserve 它应得的结果。从 3 万亿再往前继续迈向 5 万亿、迈向 10 万亿、迈向 Nadella 所说的那些 vision 的时候，它需要开辟出它的第二曲线。

而第二曲线在哪里？云可能是一个确定的生意，第二曲线其实就在于它的 business 产品，它的 Office、它的 Dynamic、它的 LinkedIn 等等这些 to be 的软件的产品。

但这些软件其实我们看软件本体都已经是非常成熟的，Office 做了三十几年，非常成熟。想要进一步拓展第二曲线的方式其实就是 320 引入 AI 做 Copilot，让你在每一个 Office 产品、每一个 LinkedIn 的产品中都会有一个 AI 去帮助你提高你的效率。

如果这件事情能做成的话，可能就是为微软再开辟出一个 1 万亿的这样的一个新市场，所以它在这件事上是相当积极的。

Host56:29

因为今天其实会有很多的讨论，就关于微软和 OpenAI 之间的关系，然后在这个关系上面，你是认为他们之后的走向会怎样？

李乐丁56:44

可能跟很多人观点不一样的是，我觉得 Microsoft 更强，OpenAI 很大程度上已经被微软圈定到一个模型研究者的位置上了。

我们其实看到 OpenAI 在往产品化方向做了很多的努力，它很早就给 OpenAI 引入了插件机制，然后这里的插件可能包括网页检索的插件、数学计算的插件，包括一些查询，比如说订机票、订酒店等等这些垂直工作的插件。

但是这里会面对一个问题，OpenAI 是一个全新的生态，它需要大量的开发者去帮助它配合，去向 OpenAI 去适配它的 API，去探索这里面的商业模式等等。

所以这件事情对于 OpenAI 做起来是不容易的，但反过来对于微软而言，这件事是容易的，因为微软是今天全球最大的 to be 服务公司，它有全球最大的 to be 生态，全球可以说所有的软件都与 Microsoft 有适配，它的 Copilot 就能很直观的得到所有软件的支持和服务。

所以你看到 Copilot 很快就与 Salesforce 有了对接，与你的各种 ERP 的软件有了对接，甚至之前有很多创业的 CEO 会开一个玩笑说你做 to be 软件的最终归宿是与 Excel 完成连接。

所以你会看到微软在这方面是掌握生态的，所以它很大程度上将 OpenAI 的产品化这件事情变成了微软自己的产品 Copilot。

而在另一方面，从基础设施角度来说，Azure 占据了最重要的位置，Azure 也在自己研发自己的 AI 加速器，所以无论是向上还是向下，我觉得 OpenAI 可能都会碰到 Microsoft 的这张天花板。

而留给它的做的，当然也是整个行业期望它好好做好的，就是赶紧把 GPT 5 训出来。

Host58:42

说到这里你会怎么想 GPT 5？你对它的预期是什么？

李乐丁58:45

我对它的预期就是横向变得更多，长时回答的更好，能做到更好的指令遵循，能做到更好的上下文检索等等这些就是已知的 AI 的能力。

Host58:58

所以你觉得还是能有一个质的飞跃的？

李乐丁59:02

质谈不上，我觉得是量的，量的飞跃，就是它会覆盖面更广，横向的变得更好。质的话我对此不成乐观态度。

Host59:14

我们再说一下苹果，因为苹果最近的发布会其实还是得到了非常多的好评，你会怎么看？

李乐丁59:20

我觉得还是早期，但是它做这一步是非常值得要做的。首先我非常欣赏 Apple 对待与 AI 的态度，就是永远是体验为先，把用户的体验放在第一位，然后以体验来决定我该如何使用我的 AI 产品。

所以它既有完全手机侧的 AI 支持，然后它也有一个 private cloud 去做支持。咱们回到业务角度来说，我觉得 Apple 将整个 AI 的核心要素仍然是牢牢的把控在自己的手里。

我们看发布会其实能看到它的 AI 其实是一个三级产品，既有手机上的端侧的产品，又有它自己的 private cloud，然后同时它也接了 ChatGPT。

很多人就会说，包括像 Musk 之类的人就会说你多么多么的依赖 OpenAI，多么依赖这样的产品，我就不想用你了。

事实上根本不是。实际上关于 Siri，关于所有的日常设备的操作，关于任务的分发，关于 APP 的管控，这些所有真正关键的决定体验的，或者说这些值钱的东西，苹果牢牢的留在了自己的手里，都会在它自己的端侧和它的 private cloud 中完成。

留给 ChatGPT 的实际上还是那些复杂的对话问题，而这些问题本来大家就会使用 ChatGPT。所以在整个过程中可以说 ChatGPT 放在了一个完全可插拔的位置，今天它不用 ChatGPT，我选择用 Gemini，我选择用 Claude 可不可以？

完全 OK。

Host1:01:00

分分钟的事情。

李乐丁1:01:01

对，分分钟的事情。所以 Apple 我觉得是一个做了一个非常完善的一整套的体系去走，但当然功能还需要打磨。

Host1:01:12

对，甚至在发布会当天还有言论在讲说会不会 OpenAI 其实是像苹果付费了，就像今天 Google 也要像苹果付费一样。

但后来有一篇官方的 blog 出来是说这个是双方没有给对方付费的一次这样的一个合作，但其实也看得出来 OpenAI 在这个合作当中的弱势。

李乐丁1:01:30

对，是的。

Host1:01:32

我们再聊一下亚马逊

，其实大家对亚马逊今天的关注好像没有前几家公司那么多，可不可以从你的角度讲一讲亚马逊在生成式 AI 这一波它做了哪些你认为特别重要的值得被看见的事情？

李乐丁1:01:47

对，其实我非常喜欢 Amazon，我很喜欢它 AWS 的 AI 战略。我在去年的时候还专门去了它的 re:Invent，其实现场去看了一下他们的构想，其实这个也是一个市场上典型的误区，因为大家把太多的关注点都放到了 OpenAI 上。

对，因为如果你真的觉得 ChatGPT 可以无所不能的话，当然 OpenAI 赢，微软赢，但实际上我们回到现实，回到原理上，我们知道它不能。

这时候 AWS 并没有因此而 lose shares，它其实给出了一个非常好的一个三层的 AI 的体系，最底层是它的非常优秀的基础设施，AWS 同样有 GPU，AWS 也有自己的自研的 training 和 infrastructure 这两款 AI 加速器，同时它有世界上最好的云。

所以如果你选择要完全 from scratch 构建自己的 AI 产品的话，选 AWS 没错，这是一个非常好的选择。而在第二层上，它会有自己的 AI 训练平台，它会有自己自研的 AI 模型，所以如果你想使用一个现有的模型去 fine tune 自己的产品，AWS 同样是一个很好的选择，尤其是对于很多企业来说，我需要模型被私有化部署，我需要因为它这里面会集成大量的我的内部的信息，

这时候 AWS 也是一个很不错的选择。在最上层，AWS 也有一个类似于 ChatGPT、类似于 Copilot 这样的快速帮你构建 chatbot 的产品，所以我觉得它在 AI 的准备上是完备的，只是阶段性的可能没有这么强的聚光灯，但我觉得它不会因此而就去离开这个舞台。

Host1:03:40

这里插一个问题，就是因为今天其实像 Dify、Langchain 还是蛮受大家的关注。

李乐丁1:03:46

是的。

Host1:03:47

但你会怎么理解 Dify、Langchain 在巨头都在构建自己的平台的这么一个大背景之下，他们的生存的空间或者未来的展望在哪里？

李乐丁1:03:58

我觉得如果从产品角度来说，他们非常卓越，非常优秀。对，我愿意把他们类比为 Docker。Docker 如果大家做技术可能非常了解，它基本上是今天所有开发人员的标配，它解决了巨大的痛点问题，但是同样它一个问题就是 Docker 没有特别明显的商业价值，因为你很难为这样的一个产品去付费，你更愿意把它作为你整套软件工具中的一环来使用。

类似的还有什么？比如消费类产品，浏览器，所有人都用，所有人都喜欢 Chrome，所有人都喜欢 Safari，但是没有人愿意为此付费。

所以如果你想做一款独立的浏览器，比如说我的老东家 Mozilla Firefox，就会变得蛮艰难的。所以你站在产品角度来说，我觉得是一个重要的创新，但如果作为商业的角度来说的话，如果是我的话，我可能会建议他们尽早卖给某一个巨头。

Host1:05:03

我们上一次聊天的时候其实有聊到特斯拉在 FSD v12.3 发布之后，你们去做了比较全方位的体验。其实这个也是一个让我当时感到有一点 shock 的一点，就是铺天盖地的好评，不管是社交媒体还是我的朋友圈，但是在你们给我的反馈里面好像没有想象的那么好。

李乐丁1:05:27

是的，做产品它不能看媒体，有时候还要是实际的去实际上去体验，就是我们之前一直认为就是做一个完全的 Air4 级别的自动驾驶会是一条比较漫长的路。Tesla 其实卖出了这里面非常关键的一个技术性决策，它会选择完全用 AI，完全使用端到端的技术去构造这些东西，去消灭掉原先很多就是人工写的规则，这些可以提升泛化性。

所以这也是 v12 从它被 announce 开始就大家非常关注的一点，因为当我们从一个普通算法进化到一个 AI 算法的时候，大家过去的经验都会告诉你它的适配性会变得非常的宽广。

于是我们就特别想去深入的看看这次 FSD v12 到底它的成色如何，但实际上我们调研看来就是它只是漫漫征程中的第一步，因为需要更多的时间去打磨更多的 corner case。

Host1:06:39

可以举一些例子吗？就哪样的 corner case 是让你遇到了你觉得这都不行，非常难以接受，它离它宣传的根本就差很远。

李乐丁1:06:46

这类例子是蛮多的，就比如说我们举一个就是自动驾驶领域大家必测的一个情况，就是无保护性左转，就是你站在一个路口上你要左转向，因为不可能有地面上给你画一个完整的线，这时候你在左转的时候你要同时参考三个要素：一是你对面的灯是不是红灯还是绿灯，你能不能开；二是你要规避别开到左转的时候别开到逆行车向去，

所以你要规避你左边的车；三是你要规避你右边的车，不能撞到它。之前我们在测试 v11 的时候，其实就在这里发现了一些重要的问题，v11 因为它是人工写的规则，所以它会优先选择规避右边的车，于是你的车会离左边的车非常近，以至于当时我直接就接管了，可能实际上开过去的时候差 5 厘米，但显然这不是人能处理的事情。

而之后我的同事去测的时候，他没接管的时候，车会在离左边车很近的时候快速往右打，这时候你的体验是不好的。

当然 v12 会对这一点做出改进，但它的改进仍然是有限的，就是它不能非常聪明的就像人真的像人开车一样走在中间，因为有的时候你的路况是不确定的，右边的车可能会离你更近一些，左边的车也可能会更近一些等等一系列的因素。

我们做自动驾驶中其实最难的问题就是处理各种各样的 corner case，这里有一个问题是什么？就是任何一个单独的 corner case 都是罕见的，肯定是罕见的，但是你开车 30 公里的时候碰上某一种 corner case 的情况就不罕见了。

对，比如说举个例子，天空上飘过来一塑料袋碰到你车上，这事并不常见，对不对？但是你开车过程中天空上一个东西飞过来，可能不是塑料袋，可能是一个树叶子，可能一个石头，可能是一只鸟等等这种情况，它就不罕见了。

而这每一个 case 都需要我们的工程师去花时间去处理去调试，所以这个流程是比较长的。

Host1:09:00

但是你认可这个方向它的正确性吗？

李乐丁1:09:03

认可，是的。我觉得这个是走向自动驾驶必然要切换的一条赛道。

Host1:09:10

然后今天还有一个，就是大家说到特斯拉的时候也 price in 了它未来做 Robotaxi 的可能性。在这一点上面你会怎么看？

李乐丁1:09:20

我不愿意 price in 这个价格。对，Robotaxi 其实当然非常好，但它有一个问题就是要不要放司机。如果不放司机的话，以现在自动驾驶的能力，恐怕它很难在更多城市去铺开。

我们去看过就是 Waymo 在旧金山的实际情况，它那辆车可以说武装到了牙齿，不光有视觉，还有非常昂贵的激光雷达。

然后 Waymo 的同事们专门针对这一个城市做了多年适配，结果是这个车经常变成路障，在路上开不过去。

所以如果没有司机的话，这个体验是很难达到达标的。但如果放了一个人类司机的话，那经济模型就不成立了。

所以这是 Robotaxi 的问题。我觉得与其想它的话，不如现在真的多去考量一下，把现在的自动驾驶做到一个可用的水平。

我觉得并不需要追求所谓的 Air4 完全自动驾驶。其实对于我开车而言，我关心的就是能不能从我出门到我的目的地中间不去接管。

我当然会继续手握方向盘仔细看，我关心的是整个过程中是不是不去接管，是不是不会出现那些让我觉得危险的情况。

只要这个 OK，我觉得自动驾驶就是一个我愿意为之付费的事情，做到 60 分 OK。

Host1:10:45

但现在还完全不 OK。

问答1:10:45

李乐丁1:10:46

现在还有距离。

Host1:10:47

国内这些大厂，大家都纷纷有自己各不相同，但都非常的激进的生成式 AI 的策略。你有特别看好谁的策略吗？

李乐丁1:10:56

我觉得大家做都挺好的

。其实这不是什么高情商发言，我觉得就是都挺好的，因为打防守不难。

Host1:11:06

因为其实你觉得都是低垂的果实，大家要做的事情是相对明朗的。

李乐丁1:11:11

对，是的。国内所有大厂他们其实跟美国大厂是一样的，大家都有自己的生态，只要有了生态，你就是不可被打败的。

你只要把 AI 技术引入进来就可以了。所以国内的大厂可能他们的问题出在 AI 之外，可能他们需要更多的增长，这些是 CEO 我们需要考量的问题了。

Host1:11:33

如果今天你想向不管是美国的巨头还是国内的巨头的 CEO 们提问的话，你最想向谁提一个什么样的问题？

李乐丁1:11:43

我觉得没必要问。我觉得之所以说没必要问，是因为他们的行为都是可预测的。就是作为一个 CEO 要让这个公司健康发展的话，你不能违背一般的技术原理，也不能违背一般的经济原理，把这两个因素加在起来之后，那么一个大公司，尤其是一家有自己生态的公司，大概怎么做的路线是确定的。

至于短期的话，有太多的非人为，就是非技术因素在里面，我觉得问也没有什么用处。

Host1:12:17

李老师，你可以给大家推荐一下平时你主要用哪些信息渠道来获得资讯或者获得一些你觉得有价值的人的见解吗？

李乐丁1:12:26

OK，我觉得比较好的渠道其实如果英文不是障碍的话，那么推特。推特上有基本上所有的 AI 的研究者和 AI 的创业者、企业家他们最新的分享。

国内的话其实也有若干媒体，但当然可能我们需要把那些震惊体过滤掉，其实他们也能会比较快的时间去讲国外的新鲜的内容。

然后最好的内容依然是读 paper，去直接的去看它的 paper。然后很多 paper 其实它最后的 conclusion 都是写得非常中肯的。

它不会因为现在的问题是就现在的 paper 的标题都写得非常的强，从 attention is all you need 开始引领了一个震惊体的标题，不写好标题没人看。

但是最后的 conclusion 都是非常中肯的，会把你的预期拉回到一个科学的角度的范畴之内。然后我觉得如果说人的话，我觉得最好大家最好的选择就是去看 Yann LeCun 教授的说法。

对，他对于 AI 的理解在我看来，他是这个星球上对 AI 理解最深刻的人，也是对这个问题思考的最远的人。

Host1:13:46

当我们聊到生成式 AI 的时候，感觉整个行业都为之振奋，走到哪里大家都在讨论它。李老师，你会认为今天投身这个行业的人做得好的和做得顶尖的人，他们的差别就是在哪里？

李乐丁1:14:02

我觉得做得好的就是大家去训练出优秀的网络模型，比如说像 GPT-4，像 Gemini，像国内的文心一言，像国内的统一千问等等，这些优秀的模型做得都非常棒。

如果说顶尖的来说的话，我觉得我最 respect 的还是那些去不断探索人类科技边界的人，他们能告诉你现在不是最终，我们还要有更棒的东西。

Host1:14:37

比如说是谁？

李乐丁1:14:39

LeCun。其实围绕着杨立昆教授持续的会有一些争论争议，但是你是认为他是这个星球上今天对于 AI 理解最深刻甚至最正确的人？

Host1:14:53

是的。

李乐丁1:14:55

可不可以就是说一个很多人都不认可他的观点，但是你认可他的观点的这么一个事？我觉得他跟这个时代也不能说这个时代，它跟这个行业目前在水上的舆论最大的区别就是它从第一时间就告诉你生成式 AI 不可能走向 AGI。

世界模型1:14:55

李乐丁1:15:16

我觉得这个观点是非常前面，其实这也代表了很多 AI 研究者的说法，只不过不适合在目前这个舆论环境中被说出来。

然后他对于这件事情的分析是非常深刻的，他在他的世界模型中有非常好的表述。他认为说我们人类之所以能够处理很多事情，是因为我们具有常识，同时我们不尝试对这个世界做出特别精细的预测。

比如说他举了一个例子，你拿着一支笔松开手，这时候你能做出的预测是什么？这支笔一定掉到这个桌子上。

对，我们能做出这个预测，但是我们只能做到这个程度的预测，我们不可能真正精确的告诉你笔在下落过程中它的轨迹是什么样的，这个笔到底第一时刻会接触到这个桌子的哪个点上。

要想知道这些，必须使用大量艰深的物理方程进行计算。人类告诉你的是一个我们用中文来说就是一个大概齐的情况。

对，所以 LeCun 教授对这件事情做了更细致的分解，他认为要实现这一点，我们需要有四个要素：一，我们要有观测就看到世界情况；二，我们要有历史的经验；三，我们要有你想要达到的预期的目标；第四，你还要有合理的假设。

将观测、经验、目标和假设四个东西结合起来之后，你才能做出下一个经验，也就是笔会掉到桌子上。

而今天生成式 AI 最大的问题就是没有经验，没有目标，我们只有大量的历史观测和一个未知的假设，而我们却需要让它做出极为精确的预测。

我们真的需要就像纹身视频一样，我们真的需要让它告诉我这支笔是如何下落下来的，显然它一定不会准。

所以这是我非常认同他的一个观点，我觉得他的很好的解释了我们今天在做 AI 时遇到的各种各样的能力问题。

Host1:17:32

而且他认为这些问题可能是无法逾越的，如果还是沿用今天的技术架构。

李乐丁1:17:36

是的，所以他很早就提出世界模型，尽管很多人抨击说你的世界模型到现在连影都没有，但这正是科学的常态。

我们先提出一个大胆的假设，然后再花很长的时间小心的求证。走到今天的 AI 其实过了 30 年，为了 AGI 这个伟大目标，我们再等 30 年没有问题。

Host1:18:00

可不可以给大家讲一讲在 Sora 他做 PR 的时候讲的世界模型和杨立昆教授他一直讲的世界模型，这中间到底有哪些区别？

李乐丁1:18:10

这两个真的是完全不一样的东西，只不过他们都共享了一个叫 world 的一个单词。Sora 在他的宣传中说自己是 world simulator 世界模拟器，他的意思就是我通过纹身视频的方式，可以把很多现实的情况场景直接模拟出来，比如说模拟一个人走过一条大街，他真的像人一样摆腿，真的像人一样四处张望。他觉得他能做到很好的模拟，而且他的模拟范畴不限领域，可以做人，可以做

动物，可以做很多的方向，所以他是 world simulator。当然实际情况我觉得他距离这个目标还需要更多的努力，因为我们也看到很多他的 bad case 生成的不好，比如说一个工人从地下凭空掏出一张椅子之类的这样的问题，这些仍然需要演进。

而 LeCun 所提到的世界模型其实更像是一种纸袋，他希望因为他这里其实并没有特别关注世界这件事情，他更关注的是 model，他更关注的是普遍的各种生物，其实不光人有学习能力，你家里的猫狗也有学习能力，它不傻，它不会说你今天放一个东西，它明天就同样时间同样时刻它过来去拿吃的，它也会做出必要的理解和观测，其实它是有智力的，只不

过比人类低而已。我们他希望通过一个模型的方式很好的去对什么是智力这件事情做出拆解。我们第一步先把问题是什么理清楚，智力我相信一定不是一个纯粹的历史观测，一定不是单纯的历史，还有一些更神奇的地方到底是什么。LeCun 给出了他的假设，当然我们不要迷信，不是说他说的一定是对的，只是说他确实在这方面做出了最前沿的探索，也许还

有其他的模型的形态，这些当然都有待探索，等待着这些科学家们自己去验证。

Host1:20:19

有一个问题，李老师假如说你可以穿越到未来，你最想看到对今天你的各种困惑的答案是什么？

如果不能说太多，比如说就一个两个，你只能看一个两个答案，你最想看到答案是什么？

李乐丁1:20:31

如果可以随便想的话，我最想知道就是在遥远的未来，黎万猜想到底被证明了吗？

回到 computer science 的技术的话，其实我更想知道的是量子计算，我们到底该走哪条路。其实量子计算现在不是没有，而是大家面前摆着很多很多不同的道路去做，因为我觉得我有一个假想，就是很可能我们的 AI 眼镜是需要到了量子这个状态的时候才能够得到的。

一方面就是如果我们就从 Scaling Law 的角度来说的话，我们不可避免的会发现人类的算力是支撑不住我们做这些事情的，我们的芯片的能效比发展的没有那么快，而量子计算能带来比现在的并行计算几个数量级的提升。

即使是说我们没有更新的办法，我们只有 Scaling Law 一条路的话，量子计算也能有更好的性价比去做这件事情。

而另外一个层面来说的话，就是我大胆猜测人脑的工作原理是在量子层面完成的，就是我们的脑大脑确实是也是一个神经网络。

对，如果仅仅是如此的话，其实很难想象从一个单细胞生物到我们中间是如何完成这个智力的飞跃的，就好像我们小时候很多时候我们学东西也是背题，但不知不觉随着长大我们就变成了有知识了，可我们的脑子还是那个脑子，甚至很多人说人长大之后你的脑细胞还没有小时候活跃，中间到底是如何产生的，我很好奇。

也许它是工作在一个 quantum 层面的，也许我们能看到这些脑中的突触，这些电信号只是帮助我们打开一个量子世界的大门。Anyway，我觉得这些事情其实是我最想看到的东西。

产业落地1:22:30

Host1:22:30

站在我们录播客 24 年的 6 月份年终，再往后看 6-12 个月，李老师你最关心的和 AI 有关的问题是什么样的问题？

李乐丁1:22:42

我最关心的问题仍然不变，就是产业化。我们的下一步的 AI native 的产品到底在哪里，到底什么时候我们能够精确的把握一个度，这个度就是去平衡现在这种强大但又能力有限的 AI 模型与各种各样的已有的传统算法，把这两个平衡好。

因为只依赖 AI 模型，你会面临幻觉，但是如果更多的去依赖传统算法的话，你会依赖于人力。

所以中间的这个平衡对于 AI 应用走向市场我觉得是至关重要的。所以我最想看到的就是什么样的想法能够把这两个有效的 balance 起来。其实今天我们还是能看到有时候会有些 PR，比如说朱啸虎说 Fancy Tech，我前段时间梁工具出来说他做的就帮企业去面试蓝领员工，就这样的一些比较弊端的一些应用，从他们至少讲出来的数据和结果来看，好

像都不错。是的，这些如果我们就是站在一个创业者作为 enterprise 角度来说，我觉得很棒，很好的事情，它可能是一个很不错的一个 business。

但是如果我们把它跟整个 AI 的背景结合在一起的话，我觉得依然太小，就是这样的产业支撑不起人们对于训练模型的巨大的成本投入，所以还需要更加 scale 一些的 application 出现。

Host1:24:20

好的，今天谢谢李老师的时间。

李乐丁1:24:23

好，谢谢。

Host1:24:25

好，欢迎你再来十字路口。

结尾1:24:25

李乐丁1:24:27

OK，好，拜拜。

Host1:24:29

欢

迎你加入十字路口的听友群，我们和别的微信群都不一样，我们在群里就干两件事。第一是发布 AI 新鲜事日报，帮你掌握信息，掌握优势；第二是我们在群里会鼓励大家谈恋爱、交朋友、找伙伴、寻找未来的同路人，请到修啰丝里面添加小助理的微信，请他加你入群

。如果你认为有朋友也会喜欢十字路口的内容，请转发微信推荐给他们。等十字路口有了更多的会员，我们就能更有底气去邀请到更大牌的嘉宾们，为大家创作出更多有价值的好内容。

谢谢你们的支持。