20个问题，搞懂DeepSeek和它带来的“AI下半场”

开场0:00

Koji 杨远骋0:02

欢迎收听《十字路口》，我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻，形容它站在 " 科技与人文的十字路口 "，伟大的产品往往诞生在这里。AI 正在给各行各业带来改变，我们寻找、访谈和凝聚 AI 时代的 " 积极行动者 "，和他们一起探索和拥抱新变化、新的可能性。

我是主播 Koji 梁元成，联合创办了《街旁：新世相和躺倒》。我相信科技，尤其是 AI，会在未来 10 年彻底改变社会，赋能人类。

欢迎大家找我聊天，碰撞想法，链接下一个可能性

。

Ronghui0:48

我是主播 Ronghui，目前在一家专注科技投资的风险投资机构工作，之前在《第一财经周刊》担任驻硅谷记者。

Koji 杨远骋0:58

本周的《十字路口》，我们准备了 20 个问题，一起来探讨 DeepSeek 将如何改变 2025 年开始的未来 10 年。大概 3 周前，DeepSeek-R1 的发布在全球掀起了轩然大波，相关的讨论铺天盖地。

十字路口向来都不是很擅长追逐热点，我们也认为，等热度稍微退去之后，往往也能够更加全面和理性地来讨论一个话题，而不被一时的情绪所左右。

因此本周我们邀请到的嘉宾，李乐丁，曾经在百度担任了 10 年的主任高级架构师，此前李老师也做客过《十字路口》。他上次来分享的播客题为《我想击碎你们对于 AI 不切实际的幻想，并重建一个正确的认知》。

这一期播客成为了我们去年 45 期节目当中收听量最高的一期，可以说好评如潮。因此我们也非常荣幸能够在 DeepSeek 引发的热潮渐渐平息之际，再次邀请到李老师来和我们聊 AI，来探讨 DeepSeek。

我们准备的这 20 个关于 DeepSeek 的问题，涵盖了从算法、算力、数据、应用以及商业等多个方面。人的一生当中能遇到的技术大事件，可以说是屈指可数，而 DeepSeek 的发布无疑是其中之一。

我也相信每个人都值得投入时间去了解 DeepSeek 究竟是什么，它又意味着什么，以及它将如何改变我们每个人的未来。

AI下半场2:26

Koji 杨远骋2:26

李老师，我们的第一个问题就直接开始。第一个问题是，其实网上有一个很流行的说法，是 DeepSeek 的发布会标志着 AI 进入了下半场。

你会认可这个说法吗？可不可以给大家讲一讲上半场下半场分别是什么？

李乐丁2:40

大家好，关于 AI 呢，其实我们上次聊过，其实更多的是关于在预训练方面的事情。经过两年时间的发展，其实基本上大家会发现，过去两年来 AI 在预训练方面的上限的提升，实际上是一个逐步趋缓的过程。

我们从 GPT-3.5 到 GPT-4 的时候，看到了一个非常非常大的跨越，但从 4 开始之后的，应该到现在将近两年的时间，它的向上的演进其实是不多的。

逐渐地，包括几个月之前，美国那边也是开始有更多的讨论，在说预训练是不是已经到顶了，包括 Ilya 给出的他自己的判断，其实基本上目前大家在形成一个基本的共识，就是 pre-train 已经走到了一个阶段性的顶点，我们不太希望再训练更大的模型了。

这方面的原因，一方面是因为数据，公开的高质量的且有足够多样性的数据，已经基本上都被使用到了。

因为这里还比之前说到的一个东西，就是关于多样性，因为 AI 需要很多很多方面的知识，并不是说我在某一方面的知识我增加 10 倍，AI 的能力就会变得更多，而是说我们现在需要的是每一个方向其实都已经很多了，我们需要一个新的方向。

从这个角度来说，多样性的高质量公开的数据也已经非常稀少了，所以从数据的这个角度来说，我们很难再扩得更大了。

而关于合成数据这方面，其实也有很多的讨论，现在基本共识是，如果你任意地生成合成数据，然后直接喂给预训练的模型，那它会导致它的崩溃。

这个在很多大学也有相关的 paper 去论证这方面的内容。然后除了数据之外，其实还有一个 debate，但是目前没有形成完全的共识，但是也说很多人开始意识到这件事情，也就是之前咱们上次就说的 Lacun 教授其实提到，由于 Transformer 它模型架构的限制，导致 AI 今天的生成式 AI 它的数据的学习效率太低了，我们向它训练了几万亿的 token 的数据，然而它们仍然很难具备像你

家猫一样的智能。所以这里面我们仍然是就会觉得可能需要有一种新的方法。所以从这两个角度来说，大家都还是觉得可能预训练是到头了，我们可以采取一些其他新的方向，特别是之前 OpenAI 的 o1 发布之后，大家开始逐步把更多的眼光放到了后训练部分。Post-training 让模型增加更多的垂直方片的技能，比如说 o1 会增加各种 Mass Code 等等 STEM 类型的能力。

你可以在垂直方向增加一些特定的 fine-tune 来让它变成一个金融模型，变成一个法律模型，变成一个医疗模型等等，这些方向现在 Post-training 正在是大家主要发力的地方。

Koji 杨远骋5:53

所以是不是这个上半场下半场也是以 pre-training 和 post-training 这样来划分的？

李乐丁5:57

对，我觉得是。上半场是我们为模型增加更多的知识 pre-training，然后下半场是我们让模型在已有的知识的基础上形成更多的能力。

Koji 杨远骋6:09

所以是不是这个也可以认为 o1 的发布它是下半场的一个信号，只是 o1 它是闭源的，所以它当时也没有把所有的技术细节拿出来给大家看，又包括它是收费的，同时它的思维链也没有公开。

所以其实虽然能力强，但是并没有被业界也好，普通用户也好，那么强烈地感知到，所以才让 DeepSeek-R1 的发布得到了如此的风头。

李乐丁6:34

对，我觉得经验是肯定的，o1 的发布就像当年我们第一次看到 ChatGPT 一样，我们首次看到能够在完全不依赖人类的情况下，我们竟然能够直接去解应用题，我们竟然能够直接让机器生成非常高质量的 coding，这是非常非常惊艳的。

但却是 OpenAI 今天已经变成了 closed AI，它的很多方法虽然应该在一线的研究者中是有一定的了解的，但它毕竟没有发布相关的具体内容，它甚至直接封锁了 o1 对于思考过程中生成的 token，让大家不知道它具体是如何进行思考的。

所以 R1 的发布相当于是给全世界揭秘了最先进的技术是如何完成的。所以从这个角度来说，R1 就相当于下半场时代的 Llama。

Koji 杨远骋7:26

我们也进到第二个问题，就是我们来请李老师给大家科普一下，就 DeepSeek-R1，包括在发 R1 前几个月发的 V3，它们的工作原理，它们的训练方式分别是什么，我们先有一个基本的了解。

李乐丁7:39

好的，DeepSeek 这次直接发了论文，包括 R1 和 DeepSeek-V3。除此之外，大家如果想深入了解的话，还可以看它之前发布的另外两篇论文，咱们凑在一起看，其实就能形成一个全貌。

前面两篇的一个是 DeepSeek-R1 的 V2，就上一个版本的 o1，以及 DeepSeek-Math 它如何将数学能力引入的。咱们先从 R1 说起，R1 这次直接将模型的数学和多步推理的能力带到了 o1 的级别，它怎么实现的其实是大家最关心的事情。

这篇论文应该是我最近两年看到的让我觉得最精彩的论文。实际上 DeepSeek 在 R1 这篇论文中，它训练了三个模型，而不是一个。

我觉得最有价值的是一开始的 R1-0，R1-0 使用了一个非常非常优雅的想法，就是我们是否有可能纯粹地依靠强化学习，让模型自己去摸索的方式来实现多步骤的思考，从而提升模型在数学、编码等等的逻辑思维能力，答案是肯定的。DeepSeek 在这里它引入了一个非常不同于以往我们使用强化学习的方法。

之前很多，特别是美国，对于强化学习的使用方法，大家往往是尝试去 reward 中间的过程，比如说我来解一道数学应用题，一个直观的想法是这个应用题将由一步一步的推理完成。

对于每一步，我的强化学习系统都要对这一步是否做得正确、是否做得好进行一次激励，通过这个不断的激励让系统得到反馈，从而实现优化。

但是 DeepSeek 非常精彩地分析了这个问题，它们的结果是要去激励模型的结果，而不是去干预中间的过程。R1-0 最终它的奖励模型可以说是非常简单，简单到它只判断两件事：第一，它只判断模型最终输出的结果是不是正确答案，而不关心中间的思考过程，对中间思考过程没有任何的激励；第二，就是它引入了一个格式，格式系统的作用其实本质

上是让后面的 reward model 能够专注于去判定输出的结果，而不要去被中间过程污染。它的格式实际上就是把中间的思考过程和最终的结果区分了开来，明确区分，这样我只看结果，不关心过程。

仅仅通过这一个方法就可以让模型的效果直逼 OpenAI 的 o1，这是一个非常非常优雅的方法。在这里其实。为什么我们只激励结果而不干预过程能够成功呢？DeepSeek 在论文中有非常精彩的论述，它这样认为的是因为我们中间过程的内容非常难以量化和给出正确的激励结果。

比如说我们在文科的时候，我们讨论一个偏文科的内容的时候，我们都知道人的说话中上一句和下一句之间是要有关联性的，是要统一被放在一起的。

我们有一句成语叫做 " 断章取义 "，这是一个贬义词，那也就意味着我们将一组，我们将你的连续的会话中任何一句话单独抽出来的时候，它都不能代表你的全貌。

所以我们很难对其中人说的某一句话进行精确打分，你说的是对还是不对，高还是低，这个是不能的。

而对于偏理科的东西，即便比如说一道数学题，我们都知道一道数学题往往它会有多个解法，比如说高中的很多题我可以用代数的方法解，也可以用几何的方法解，我也可以用分析的方式解。

同样就算只局限到代数上，我也可以先合并同类项，再两边乘平方，也可以反过来。也就是说对于一个理科的题来说，它的推理过程是无限多的，我们很难穷举。

因此与其让模型去干预中间的过程，不如直接看结果。或者说我们从，也就是说从这个角度来说，就是机器的思考过程与人类是完全不同的，我们不能强求机器和人一样的想法，因为它的知识可能比我们所有的人脑中的知识储备都要多得多，它的预训练里学了几万亿的 token。

通过让它去不断地实验，以一种对于机器最自然的方式进行训练的话，我们是可以达到一个优秀的效果的。

这篇是 R1-0 给我们一个最大的启示，证明了强化学习直接使用是可用的。

Ronghui12:28

这里我想补充一个问题，就是你提到的它的这个创新的想法，之前有没有其他的模型厂商尝试过？

然后因为其实我看一些报道里面也提到 OpenAI 的研究员在比较早的时候其实做一个分享也提到过模型需要的是激励，不是干预。

李乐丁12:46

是的，这件事情做得最早的确实就是 OpenAI，当然以及还有强化学习的可以说这个宗师级选手就是 DeepMind。其实这个想法在 AlphaZero 就出现过，在 AlphaFold 中同样也都出现过，我们更多地去关心结果，OpenAI 也有相应的讨论。

但是从开源方面的话，R1 是首个直接告诉我们可以这么做的。我相信 OpenAI 和 DeepMind 内部都会有大量相关的研究，我甚至相信 o1 很有可能就走过了 R1 整篇论文中的路程，最终形成了它们自己的模型。

所以这块应该是有很多的前沿的研究者在做的，但是开源的是 R1 首个。R1-0 是一个非常棒的创新，但是论文中也非常明确地写出了 R1-0 它也有两个缺点，这两个缺点不适合把它真作为一个日常使用的模型给大家使用。

这两个缺点其实很容易想到，首先就是既然模型是通过它自己的方式摸索出了推理的步骤，那么很可能这个步骤对人而言是难以理解的。

这就是它说的第一个问题。或者说网上今天现在也有很多人在形象地说就是 R1-0 的思考过程不是人话，人很难理解，这是第一个问题。

第二个问题就是语言混合，它的中间思考过程会中文、英文或者其他的语言混合使用，这个也很正常，这是因为模型本身它学会的是所有语言，它并不局限于中文，它并不局限于英文。

对模型来说，所有的语言都是 token，所有的计算都是选择概率，都是计算 attention，对它而言语言之间，不同的语言之间没有代沟，没有区隔，哪个词更好地表达了当前推理的方向，它就会选哪个词。

所以就会形成 R1-0 的这样的一个效果。但这样的结果显然我们如果拿来日用的话是不合适的。日用的情况下我还是希望看一看中间的思考过程，希望人能够看懂，希望它能够要么使用中文，要么使用英文，或者是要么是你预设它使用法语，它就使用法语，然后有一个一致的语言，这个更像人类的习惯。

所以要为解决这两个问题，DeepSeek 又增加了更多的方法来形成从 R1-0 变成了 R1。做法方面的论文里讲得非常细致，首先第一步是在一个 DeepSeek-V3 的基础模型上进行 SFT 微调，这里会用一批的 COT 数据，这里相当于给模型一个基础的回答套路，比如说它会告诉你如果碰到某一类型的题目应该先第一步是什么，第二步是什么，第三步是什么，第四步是什么。

比如说要我们做一次总结陈述，第一步先应该看各种材料，第二步进行对比，第三步写总结，它会写出类似这样的回答套路。

这些套路经过 fine-tune 之后，会让模型在回答的时候相对而言更靠近人的说法，然后会保证模型在回答的时候使用一致的语言，这是克服了语言一致性的问题。

然后在这个基础上再去使用强化学习，相当于我只告诉你几个基本的套路，让模型沿着这个基本套路的方式再去自行摸索对所有其他的多步骤思考的问题该如何解。

经过这样训练之后，得到了一个中间模型，这个中间模型实际上它还是有一定的问题的，虽然语言可能一致了，但是由于它使用了强化学习进行大量的能力扩展，显然扩展出来的很多能力回答的方式还不完全像人话。

所以怎么解决这个问题呢？DeepSeek 使用了蒸馏，它在这里就将这个中间模型进行了蒸馏，得到一批的问答对，这里问答对就包含了大量的题和回答方式，然后对这些回答方式进行筛选，筛选的方式使用了一个叫做拒绝采样的机制，这个算法很常见，并不是什么特别的。

它的思想其实就是人通过举例的方式算出人在回答问题时的套路，与蒸馏出来的数据在回答问题的套路是不是差异太大，对于那些差异特别大、特别不像人话的东西就拒绝它，我不采样这样的信息，这样是一个剔除的筛选算法。

经过这样处理之后，DeepSeek 得到了 60 万条非常高质量的多步骤推理的问答对。有了这个数据为基础，然后再增加 20 万条传统的 fine-tune 数据，这传统的 fine-tune 数据就是让模型具备比如说语言对话，然后文本创作，然后阅读理解等等传统 LLM 的能力，这些能力使用 fine-tune 是最佳实践，然后加在一起 80 万条数据，以这 80 万条数据再去重新 fine-tune 它的 DeepSeek-V3 基础模型，

这时候得到的就是 R1 这样的一个模型，它既具有传统大语言模型的各项能力，又具备多步骤思考的推理能力，同时它的推理结果符合人类的思考习惯，并且使用一致的语言，这就是 o1 的效果了。

非常精彩，整个过程非常精彩。

蒸馏争议18:40

Koji 杨远骋18:40

确实听起来感觉一气呵成，李老师讲得也很漂亮，像给我们讲了一个纪录片一样，听起来很有意思。

然后正好第三个问题也是刚才李老师你有提到的，就关于蒸馏，其实网上有很多争议，就是 DeepSeek 到底有没有蒸馏 OpenAI？

伴随着这个争议的除了原创与否或者侵权与否的这些先不说，然后有另一个问题就是如果只是用蒸馏的话，它有没有可能超越 OpenAI，超越 SOTA 模型？

李乐丁19:09

关于这个问题，首先我相信 DeepSeek 没有使用 OpenAI 的数据，我觉得没有必要。咱们就回到这个，咱们就假设它使用了蒸馏数据，这个蒸馏是干什么用的？

实际上我们通过前面整个论文的论述过程，我们可以看到唯一使用了外部数据的是一开始从 DeepSeek-V3 的 base model 做第一步 SFT 的时候使用了一批 COT 的数据，这些数据就是让模型学会基本的回答套路。

这部分数据就算使用了 OpenAI 的一些成果，那又如何？因为最后真正的能力完全是来自于后面的强化学习。

如果没有使用的，没有使用也没关系，DeepSeek 完全可以自己找专家进行标注，这方面不是什么特别大的困难。可能这里会稍微的，如果没有更多，没有前人的数据拿来参考的话，可能会稍微走一些弯路，比如说我们现在已经发现 R1 的这条道路更适合做数学题，不太适合做，可能不太适合做文科，也许它做了大量的文科 COT，然后进行蒸馏，进行实验，发现效果不好，回过头

来重新写更多的数学题，仅此而已，无非浪费一些时间，最终它一定会摸索出一套合适的种子 COT 数据。

所以没有任何必要去蒸馏 OpenAI，也许一开始有一些参考，那又如何？全世界我们每一个人都在参考别人的工作，这我觉得不是什么问题。

回到第二个问题，就是仅靠蒸馏能够超越 SOTA 吗？我觉得绝对不能。这个不能，不是说你拿出最终一个成品，然后看它的 benchmark 发现我不如目前的第一名，这是有可能的。

不可能的源于在于你拿出的这个模型如果是蒸馏的，它一开始的蒸馏数据从何而来？这个蒸馏数据必然只能来自于强化学习的大量扩写，而不是蒸馏别人。

如果蒸馏别人，你的能力一定小于它，这个是我们既定的经验。传统蒸馏一定是大模型蒸到小模型，这时候小模型将具备大模型可能 80%、90%，这个看你的蒸馏技巧的能力，但绝不可能反向超过大模型，那就左脚踩右脚上天了，这是错误的。

所以中间一定想要让我们的模型在推理方面做好，中间一定要引入强化学习，这时候它就超越蒸馏了。

路线之争21:43

Koji 杨远骋21:44

其实业界的共识还是说是 o1，它是带来了一个范式的革新，它的原创的这种革新启发了后面的很多人，不管是 DeepSeek 的 R1，其实也包括 Kimi 的推理模型 K1.5。

我觉得整个这种知识的接力，或者站在别人的肩膀上面再去做创新，其实这个是一个最近让人感到有点感动的某种技术理想主义在推动人类不断进步的一种感受。

最近也有一个被大家喷得很厉害的人，就是 Anthropic 的 CEO Dario，他之前其实还蛮受业内人士尊重的，可是在 DeepSeek-R1 发布之后，他跳出来写了一篇叫什么代表某些美国观点的文章，要对中国进一步的限制芯片，以保护美国在大模型领域、在 AI 领域的绝对领先。

这是不是也是意味着，也是我们的第四个问题，就是 DeepSeek-R1 它所用的 post-training 路线当中的 RL 和 Anthropic 一直在用的 RLHF 的路线之中，RL 已经显然胜出了，所以 Anthropic 受到了威胁，才会有 Dario 的一系列的反应呢？

李乐丁22:57

这篇文章确实可以说火遍全网，然后我觉得我们要客观去看待，就是把这里面的不同的地方区分出来。

我觉得可能从三个层面来说，首先如果从整体角度来说，这篇文章完全就是在中国阴谋论，就试图通过强化中国的威胁来掩盖现在 Anthropic 和 OpenAI 的能力已经被中国

追上这样的事实。所以这里面这部分内容可以说纯粹的就是阴谋论，但是它文章中关于纯粹技术这部分的论述是非常中肯的，对于 DeepSeek 内部大量的技术的论述是中肯的，这部分我们是可以采纳的。

我觉得说的也都非常好，其中它确实说了一句事实，就是 DeepSeek 的能力仍然跟他们有六个月的差距，这个我们没有必要回避。

今天咱们不要拿空头支票就直接上 benchmark，从这里我们可以看到，确实我们还没有超越 OpenAI，也没有超越 Anthropic，比如 R1 的效果只是达到了 o1 的下限，但现在 OpenAI 已经有了 o3 了，这一点我们确实是有差距，但当然它没说的是这六个月时间 Anthropic 自己的进展也不大，所以确实有差距，但是也没有怎么大。他们前方的两个最前的人，他们已经非常放缓了，我们再追上来。

说到技术这块，我觉得应该保持一个开放的心态，就是我们不能预设某一项技术一定是正确的或者一定是错误的。

如果我们这样预测的话，实际上 DeepSeek 不可能做出今天的 R1，因为在此之前最主流的正确方式是 Llama，而 Llama 的体结构跟 DeepSeek 可以说是完全不一样，中间会有巨大的差距。

我非常同意梁文峰之前他接受采访时说的一个观点，他的采访应该最近也是火遍全网，他中间一个很重要的观点就是现在的大模型研究更像是一个 research 阶段，而在 research 阶段的典型方式就是我只提出一个假设，然后通过实验的方式去证实它。在实验给出结论之前，我都不能说这个假设一定正确或者是一定错误。

所以我确实无法回答到底是纯强化学习这条路是正确的，还是 Anthropic 这条路正确的。Anthropic 认为模型的能力应该是一个连续的光谱，应该是在基础模型之内就让它具备偏文科的回答能力和偏理科的多步骤思考能力。

同样这也是一个非常厉害的 idea，我不知道，也许它后面能够有更好的方法来实现这一点，这个我觉得咱们就从抱着一种科学的心态去关注他们，看大家什么时候能证实自己的 idea。

当然另一方面就是对于疫情的方面，显然我们是不认同的，美国已经没有任何能力去阻止中国研发大模型了，我们已经完全具备了关于生成式 AI 的全部的技巧，可能仅仅就是硬件方面造卡还有点困难，但我们国内也有卡，我们中国也有自己的 AI 训练卡，所以这块无论如何他们是不能阻止我们做出世界上最好的模型。

Koji 杨远骋26:47

所以我们现在是推理卡，我知道是已经尤其被 R1 证明了，就像硅基流动他们这一次发的 API 也是在华为的推理卡，华为云的推理卡上做的。

李老师现在训练卡我们到什么程度？

李乐丁27:03

训练卡目前我觉得目前的阶段是属于可用，但确实有点难用。如果你想三个月复现 DeepSeek，那么恐怕最佳的方案还是全套英伟达，还是用 GPU，还是用它的 NVLink，最好你的网络还是用它的 Infiniband，因为整套体系是非常完备的。

以及如果你想要探索一些完全不同的新的模型，恐怕 CUDA 为你提供的支持也是最完备的，这个我们没必要回避。

但是国内的卡完全可以进行训练，只不过需要一段时间的模型适配。这块我之前有几个朋友其实做相关硬件方面，一般来说训练的适配的时间会在三个月上下这种，但是这是前提是这是一个比较确定的固定的一个模型。

如果是要做自定义的算子要探索的话，恐怕要花的时间更长。

开源胜利28:04

Koji 杨远骋28:05

我们前面四个问题都是有点硬核的问题，我们为了照顾到大家收听的节奏，所以我们第五个问题会轻松一点，也是大家都关心的。DeepSeek 这一仗打得非常的漂亮，它这种大获全胜的这些因素里面，我们认为它有开源，技术也做得好，然后成本也很低，然后产品体验也不错。

李老师在你看来这些因素谁最重要，或者说它们分别占比多少，能不能够来分享一下你的看法？

李乐丁28:36

如果在我看来让我看的话，我觉得是开源是最重要的。我觉得勒昆教授给了一个非常好的评价，就是他说与其说这是中国战胜了美国，不如说这是开源战胜了闭源。其实我们回过头来，我们还是回过头来看 DeepSeek 的论文，我们从 R1 在倒推之前看 V3，V3 里面有 MLE，有 MLA，再倒退后来看前面的 V2，再回到看 DeepSeek 的 MATH 中间对于强化学习的一开始的探索，其实我们能够

非常明确的感受到业内的一线研究者对于这种未来的方向是有感知的，他们不是不知道。所以阻碍他们的原因是什么？

很可能是没有足够的条件让他们去在这种创新的方式上做实验。这里我觉得很多时候实验是要付出代价的，比如说像 DeepSeek 其中它的里面做了大量的实验去论证某些方法可以，某些方法不可以，比如说 R1 他们也尝试了去激励过程，结果是不好。在 V3 里它也去比较了使用它新的 MTP 多 token 输出到底对于模型的效果改善有多少。其实这就意味着要想

做好一个大模型需要大量的实验，因为没有人真正知道模型正确的道路是什么。可以说整个生成式 AI 乃至说整个 AI 我们的理论层面是不完备的，不像 Computer Science 有图灵完备性完全告诉你了一切，AI 并没有。

很多时候该用什么样方法是需要做实验的，所以更重要的是要有足够的机会让研究者去做实验，而不能因为这次实验训出来的模型效果比上一版本降了 2%，那就触发它，那就不让它再运用资源。

如果这样的话，那是做不出最好的模型的。所以我们看 o1 的产生一定我认为一定背后有两方面原因，一方面是得益于 DeepSeek V3 这个模型使得模型的训练成本大幅降低，V3 的整体训练只需要 550 万美元，2000 多张卡，而它在它基础之上再去做推理，再去做其他的强化学习，它的成本也比传统我们使用那种超大模型要低得多得多，那就意味着在同等

的资源投入下 DeepSeek 可以做更多的实验。另一方面我就觉得是因为 DeepSeek 本身它有一个坚持了一个很好的处心，就像梁文峰说的，他不去做商业化，纯粹 research，在这种情况下我可以接受模型失败，我可以接受这次的效果不好，甚至我可以接受在一段时间内效果不好。

比如说我们还是如果我们仔细看论文的话，会发现它将强化学习进行了 8000 步，这几乎是绝无罕见的。

之前没有公开的论文会把强化学习推到这么远的距离，那不是因为我们的研究者想不到这一点，无论中国还是美国，我们都有非常优秀的研究者，大家能想到问题是从 0 到 8000 步，效果的提升不是线性提升的，中间会下降，中间会有反复。

如何保证你有足够的资源在比如说到了 2000 步，你的强化学习的斜率不再快速上升的时候，甚至出现阶段性向下的时候还能坚持呢？

我觉得这一点都是需要更好的管理的支持的。所以一个偏向于 research，偏向于开源的方式才能孕育出这样的先进技术。

Ronghui32:11

看到一些分析就说到说大家其实看到的都是 DeepSeek 这次的一个巨大的成功，其实它的成功背后其实是有非常非常多的失败的，然后只是我们可能不知道。

李老师你刚才提到这个 8000 步可以再具体的比如在通俗的解释一下这 8000 步意味着什么吗？

李乐丁32:29

OK 好的，咱们可以稍微说一说 R1、Zero 里面用的强化学习策略。相当于我们可以这样理解，就是我首先让模型在一无所知的情况下回答数学题，这些数学题的源头在哪？

我们参考 DeepSeek MATH 这篇论文，它使用了 8000 个种子数学题，这是有专门的评测集提出的，然后这里面有题和标准答案，然后它让机器自己去生成答案，显然大部分题应该答的是错的，只有极少部分回答的是正确的。

然后这时候强化学习系统会进行打分，把正确的标出来，把错误的也标出来。当然这里面还有一个非常重要的技巧，就是它里面的 GRPO 的 reward model，咱们可以稍后再说。在这个过程中我可以将模型进行打分，把好的回答选出来，把差的踢掉，然后让模型重新用好的这些数据去重新 fine-tune 我的基础模型。

这时候模型相当于它能力就提升了一步。比如说这时候 8000 道题它可能第一步下来 8000 道题只回答 10 道，这时候我的正确率就是 10/8000，然后我把这 10 道正确答案重新 fine-tune 模型之后，开始进行强化学习的第二轮，我还是得 8000 道题继续让它回答，那么大概率它会从对 10 道变成对 20 道，对 30 道，当然数字这个是随便说的，会几十道题，然后还是 reward model

选出好的答案，踢掉差的答案，把更多好的答案重新回馈给模型，然后再进行第三轮，以此类推第四轮、第五轮、第六轮。

这时候我们是从如果粗看的话，我们会看到模型每一轮生成的它的思考中间这个 token 数，思考中间流程会变得越来越长。

这是论文里也有非常好的表述，这个基本上是线性变长，模型说的话越来越多，它也就是意味着它思考的越来越多。

同时我们看到随着步数的增加，整体的正确率在提升。但是有意思的是我们看这个模型会发现这个提升它不是线性增长的，模型在前 4000 步的时候它的正确率提升的斜率基本上是一条斜线直接向上，效果变得很好，但从 4000 到 6000 步的时候开始它的斜率衰减了，从一个非常快的增长变成了一个相对缓慢的增长。

而到 6000 步之后模型的正确率甚至下降了一下，到 7000 步左右的时候甚至在下降，然后应该是在 7500 步之后模型的效的准确率又开始上扬，形成这样的一条曲线。

这个中间当然可能 DeepSeek 因为前面做了大量的前置工作，做了很多的探索，所以它的这个曲线非常漂亮。

很多强化学习的研究可能是我在 1000 步的时候我的效果提升就衰减了，到 2000 步的时候就平了，甚至下了或者掉头向下，这时候可能大家就不愿意再去花资源去做后面四五千步了。

Ronghui35:47

是不是可以说他们其实是为了想要测试跟证明这个方向这个选择，想要去看它能够得到什么样子的结果，其实是非常的坚持。

李乐丁35:58

对，是的，一定是大家首先就是我觉得咱们一会儿插入一下关于 GRPO 的那个 reward model，其实就是当我们看这篇论文，当我们觉得真的想清楚之后，会发现整个 R1 的训练的思路是如此自然的时候，你一定会对它有信心，你会相信这个东西一定可以成。

然后再加上 DeepSeek 有很好的低成本训练，以及有一个很好的老板，我觉得大家会形成一个共同的决策，咱们来吧，咱们把它拉到一个别人都没想象到的次数，我们看看它到底怎么样。

所以这个是成功的。对，所以这我想再说一下就是它的 GRPO，就是如何 reward。

Koji 杨远骋36:43

整个 R1 大部分的技术都来源于一些朴素的想法，我们通过直觉其实就可以大面上判断说它们是 OK 的，而 GRPO 是其中最为复杂的一项思路。

我们回到原先整个强化学习的过程，我们可以简化来看就是先让系统去尝试回答比如说 100 道题，然后将其中正确的 10 道题拿回来重新去 fine-tune 模型，到下一次再训练的时候这 100 道题就可能有 20 道题是正确的。此时我们要不要将这 20 道题全部送给模型进行 fine-tune，这会存在一个问题，就是这 20 道正确的题中可能有相当一部分的内容是与前面的 10 道题重

复的。那么从两年前我们训练大模型的 pre-train 阶段的时候，其实我们就会发现数据虽然重要，但最好别重复，重复使用数据来训练模型很容易造成模型的过度拟合。

从形象角度来说，当模型在这个强化学习的过程中持续训练的时候，我们更希望它多去关心那些新摸索出来的套路，而不是一遍一遍的去重复和背诵之前已经学会的技能。

所以 GRPO 的工作就是尝试去量化哪些新训练出来的套路更新更好。R1 的做法是这样的，首先对于每一道题系统会让它做多个回答，这里是选了 8 个，然后对这 8 个答案依次评分，答对了给 1 分，答错了给 0 分，然后将这 8 个分转换成一个称之为 Z 分数的统计学数据。

这个分数在统计学上我们是经常被使用的，它的作用是什么？它的作用是做更好的区分度，比如说这 8 道题中如果绝大多数的这 8 个答案中如果绝大多数的答案都是做对的，那么我们就认为模型对这个题型基本上已经学得很好了，于是它的 Z 分数就会比较低。

相反，如果 8 个答案中只有少数几个答对，那么我们就认为模型学到了新的套路，这少数几个答对的地方它们的 Z 分数就会非常高。

恰好的是从数学角度来说，Z 分数刚好是一个落到 0 和 1 之间的小数，所以它可以被直接看作是一个采样的概率。

有了这样的一个分数和采样概率之后，我们就可以将那些新学习的套路以更大的概率让模型去 fine-tune，而那些已经学会的已经掌握的旧知识以更低的概率交给模型去复习，多关注于新知，少关注于旧识。

这样如此往复，模型就会不断的优中选优，从而实现整个过程。当然 GRPO 除了在这方面思考上的优势之外，它也同样由于是我们只激励结果而不关注中间阶段，它与传统的像 PPO、DPO 等等强化学习算法相比，它在计算量、在内存的消耗量等等方面也有很大的优势。

综合起来就形成了 R1 使用的这一项非常优秀的算法。

Ronghui40:37

我看到 Lex Fremon 那个播客里面详细的解释了 DeepSeek 在底层优化上做了一些事情，甚至他还把这个列到了就是他认为这个低成本的训练成功的关键，他提了三点，就是第一个，就前面其实你就提了就是 MoE 这个混合专家 MLA 和因为芯片限制，它不得不通过底层优化来提高效率。NVIDIA 本身有的这个 NCCL 的这个库的这个，他们没有这个东西的前提下做了很多创新

，这个你了解吗？就是比如说他们做的是哪些创新？

李乐丁41:09

具体他们做了什么事，其实论文里都写得很清楚，其实就是通过一些底层的 CUDA 的优化，以及它训练过程中不同计算和通信之间这个编排优化，来保证它这套系统有足够的这个带宽，它带宽够，它通信不会卡住。

但是通读它这个论文下来，我觉得 DeepSeek 手里的卡就是 H800，它既没有 H100 也没有 H20，这为什么？就是 H800 跟 H100 主要差的就是那个 NVLink 带宽卡了半了，所以就逼着它，它必须得做这个优化，它不做不行。

但另一方面 H20 它的那个通信能力和算力跟 H800 差距又特别大，按它现在那个优化方式在 H20 上跑可能不是这效果。

我觉得它就是 H800，但这个现在它不说也没人知道。

Ronghui42:08

就觉得还挺让人启发的，就是卡住它的地方，它把这个地方变成了它的创新。

李乐丁42:14

对，是的，是的，但如果有 H100 的话，它效果会更好，我觉得这肯定的。它那个如果 H800 的确实条件是真的是太有限了。

Ronghui42:25

Lex 他把这三点列成最重要的，你同意这个观点吗？

李乐丁42:29

基本同意。我觉得还有一点就是 IP8，它那个低精度，我觉得这个是很重要的东西，这些其实是其主要作用的。

美国人在分析技术方面基本上都是靠谱的，这个说的都对，但是就是观点上面这个咱们就仅供参考吧。

成本革命42:45

Koji 杨远骋42:48

我们第六个问题，紧接着就是 DeepSeek 的 V3 为什么可以只花 550 万美元，而且前不久还有另一个新闻，就是李飞飞的团队用 50 美元也训出了据说可以媲美 DeepSeek-R1 和 OpenAI o1 的 AI 推理模型，这又是怎么回事？

可不可以也请李老师来分享一下？

李乐丁43:07

咱们还是这是两个问题，一个是 V3 的 550 万，一个是李飞飞那个，我觉得咱们先从李飞飞这个说起，就是这 50 美元训出 R1 的这确实有点标低档，但是这篇论文同样它非常重要。

要明白它的重要性，其实咱们还是要回到 R1，R1 这篇论文实在是过于精彩，以至于它把最后的甜点都变成了主菜。

刚才一开始我说到 R1 其实最终训了三个模型，咱们前面说了两个，一个是 R1-zero，一个是 R1，还有第三组是什么？

实际上 DeepSeek 尝试在回答这么一个问题，它的 R1 和 R1-zero 分别是都是在它的 DeepSeek-V3 这个超大的模型底座上完成的，就是在一个 670 亿比，虽然是 MoE，也是一个非常大的模型上进行的训练。在这个非常大的模型上训练，我们证实了通过强化学习的方式和通过蒸馏的方式都能让它获得非常棒的多步骤推理能力。

那么问题自然就来了，我在一个没有这么大，我在一个小模型上使用强化学习和使用蒸馏的方式能让它具备很好的多步骤思考能力吗？DeepSeek 做了实验，它的方法就是将前面咱们说的从那个中间模型蒸馏出来的 80 万条非常珍贵的数据，用这个数据去 fine-tune 千问和 Llama 这两个相对小的模型，它用的我看的论文应该是没记错的话应该是 7B30B，用它去 fine-tune，这实

际上就是蒸馏，用数据去蒸馏，答案是 OK。在小模型上用珍贵的蒸馏数据，我也可以让它具备非常棒的 math 能力，它论文里也有相应的 benchmark，成绩非常好。

但是论文里也告诉你，如果我在小模型里面直接使用强化学习，使用 R1-zero 的这套思路行吗？不太行。

论文认为是因为小模型具备的知识还是太少了，其实就像你要想自己修炼的话，还是最好多有点知识，完全没有的话就容易走火入魔。

这块可以说这绝不是一个甜点，而这是一个主菜，因为这意味着你拿一个 30B 的这个小模型，甚至 7B 的小模型都能有类似于 o1 的多步骤推理能力。

沿着这个思路咱们可以继续再想，就是我用了小模型 80 万条数据 fine-tune，8 万条行不行？我 fine-tune 也想少一点，fine-tune 少一点的话对于应用获得自己的能力也是有好处的，8 万条行不行？8000 条行不行？

这块就走到了李飞飞的 S1 这篇论文了。在这里它最终给我们的答案是，如果你想 math 数学效果好的话，1000 条就可以。

它怎么来的？它是先从 Google 的 Gemini 2.0 Flash Thinking 也是一个非常棒的推理模型，这个咱们客观说它这个模型的效果不比 R1 差，从这里蒸馏出了 59000 条高质量的回答问题，然后李飞飞对这些问题她说进行精选，因为她的目标就是看到底我用我可以把这个蒸馏出来压缩到多小，让模型学会能力。

她中间用了三个原则，就是这题要够难，然后题别重复，然后覆盖面足够广，最终得到了 1000 条。

这个论文里非常清楚的告诉你这 1000 条大概是什么，就包括各种各样的数学，从相对简单的线性代数微积分到比较复杂的十倍函数微分方程，然后还有很多量子物理等等，反正都是理科题 1000 条，仅仅用它，然后拿它去 fine-tune 千问，我可以得到媲美于 R1 的 math 性能。

所以李飞飞这里就告诉你，如果你就是想在一个小在一个普通的模型上得到一快速得到 R1 使用蒸馏的话，你只需要 1000 条数据，而这 1000 条数据论文里写 fine-tune 只需要 16 张 H100 训练 26 分钟，算下来就是 50 美元。

当然 50 美元这个这是一个非常极限的测试，所以我说 50 美元比较标低档，实际的话肯定会比这个多，但是这也意味着如果你仅仅就是想获得垂直能力的话，你的成本可以非常低，后训练的成本是非常低的。

咱们这再关联上 V3，V3 的论文中不仅告诉你了预训练 550 万，就是 200 应该是 260 万 GPU hour，咱们就按 GPU 小时来说吧，因为那个单价它各地不一样，这 260 万 GPU hour 就可以预训练出 V3，同时它告诉你它的后训练所用的算力连预训练的零头都不到。

所以有时候我比较讨厌就是现在网上很多人说这个预训练 scaling law 结束之后，后面就是后训练的 scaling law，然后算力继续无限膨胀，后训练确实有 scale，但是它的 scale 规模跟预训练是不能比的，会差好几个数量级。

然后至于 V3 的 550 万美元，这个 260 万 GPU hour 如何做到，就要再回归到它的 V2，可以说就是过去很长一段时间后期播发而来，里面最重要的就是如何节省模型参数的技巧是在 V2 完成的，就是 MoE 到 V3 做了进一步的优化，如何降低在每一次计算过程中算 attention 消耗的算力，这个也是 V2 完成的，就是它的 MRA attention，这个 V3 继承了得到了优化。V3 做的是使用 IP8 训练

，其实这个我觉得真的美国人其实早就应该做，这个因为 IP8 是 H100 卡最重要的一个卖点，美国人手里有这么多 H100，他们不去试这个东西，确实我觉得也是有点资源诅咒的味道了。

做它其实不是什么神奇的东西，就是大量做实验，我要摸索出在整个正向和反向传播过程中哪些是可以使用 IP8 的，这块又贡献了一部分。其实这三个加在一起贡献了绝大多数的力量，把它们都放在一起，260 万 GPU hour 基本上可以完成一个训练。

Koji 杨远骋49:35

我觉得李老师讲得太好了，在没有这个视频和没有 PPT 的情况下，能够把事讲得那么清楚真的挺不容易的。

李乐丁49:43

这两篇论文我看了好久，确实写得非常好。

Ronghui49:47

对，我其实还挺想问这个问题的，就是你刚才其实提了好几遍，然后 Hancock 的那个分享里面其实他也重复了好几遍这个话，就是说这个论文写得太精彩了。

我今天还问 ChatGPT 一般业内是怎么来衡量一个论文写得特别精彩，它给了我一些维度，其实我想问问你的主观判断，就是你会从哪些角度觉得这个论文写得太精彩了。

李乐丁50:12

其实这个就是通俗来说就是干货足够多，这篇论文它的干货实在是太多了。就是坦白说，坦白说虽然我一直非常关注 AI，但是过去两年其实我越来越不愿意读论文，是因为大部分论文给出的内容有效内容实在是不太多。

这篇论文可以说它这一篇论文的就是它的硬内容的含量可能相当于一般论文的十篇，甚至不止。就比如说像 R1 那种训三个模型的事情，完全可以写成三篇论文。

然后至于 DeepSeek-V3 的那里面它如此巨多的各种各样的优化技巧，虽然很多优化技巧咱们坦率说应该是 DeepSeek 还没有做得足够完善，这些技巧都效果不大，它比较新，可能后面的 V4、V5 会逐渐做出来。

但是这么多实验这么多事情的话，如果普通来发的话，很可能发它五篇六篇论文也都是可以的。

所以确实它的内容含量实在是太高了。

Ronghui51:22

而且我觉得它这个方式其实也很符合开源这个世界的沟通方式，就是它发一篇论文，然后大家会通过社区的人会通过论文去解读，其实等于帮它做了非常非常多次的二次传播。

李乐丁51:35

是的，是的，这才是社区精神。

理解影响51:39

Koji 杨远骋51:39

我们就进到我们的整个第二大部分，就是如何来正确看待 DeepSeek 所带来的一系列影响，也是我们的第七个问题。DeepSeek 显然是带来了我们非常强的民族的情绪，尤其还要考虑到 DeepSeek 这个背后，它的团队里面的每一个人都是在国内的工科高校的体系里面所培养出来的。

甚至前两天我听到一个投资大佬，他在一个私下的聚会上非常激动地说，这认为是中国的国运，如果没有国运，我们很可能就进到通缩了。

这个 DeepSeek 的发布甚至避免了中国进到类似日本的失落 30 年的这么一个境地。李老师你会怎么看待 DeepSeek 对于中国的科技行业乃至整个中国商业世界的影响？

李乐丁52:28

这个太宏大的问题，这个我确实回答不了。就从我的感受来说，我觉得有一点是非常明确的，就是 DeepSeek 证明了我们中国的无论说是研究人员还是我们的软件这个 AI 的这个从业人员，我们掌握的知识，我们的掌握能力一点不比美国差。

我们用完全的全部的知识，然后我们可以在几乎是完全独立的情况下做出最先进的东西，这个是非常好的。

至于说它对于更大层面的影响，我觉得我不知道，但我相信大家一定会因此而感到兴奋的。然后当然还是我觉得还是还要有一点，我觉得最近有一些确实我看到了很多这个网上的传播，我觉得有一点不太好的地方，就是不要因此就觉得我们一下子完全超越美国了。

梁文峰在他的采访中我前面说他有两个观点非常喜欢，其实第一个是前面说过，第二个我觉得还是就是在他看来中国和美国的差距到底在哪。

中国和美国的差距可能比如说在 AI 这个领域我们可能只能差只差一年甚至半年，但与其说这是时间上的差别，不如说更本质上是原创和跟随的差别。

我们必须说不得不承认，也必须承认或者说应该承认 AI 几乎所有的原创性的想法和 idea 依然来自于美国。

强化学习是谁最早在产业中真正使用的，是 DeepMind。对 GPT 这种 scaling 的方式增加模型参数来提升能力的方式最早从哪来的？OpenAI 都是来源于美国。

所以如果我们这个阶段不能够去转换从一个跟随者变成一个原创者的话，我们与美国的差距可能永远会留在一年两年。

我们可以跟随得很近，我们可以学会，但是我们不能超越它。我有点感觉就是 DeepSeek 现在的 DeepSeek 更像是 Ilya 时代的 OpenAI，而不是 Sam 时代的 OpenAI。

现在的 OpenAI 我觉得它太过于路径依赖于它，当然它完全的 close，就是一是它太过于沉迷于 scaling，就增加算力，另外就是产品化纠缠了它太多太多的经历。其实大家对 OpenAI 最大的期望还是把 GPT-5 做出来，去超越原先的东西，去做这些事情才是大家希望看到的。

Koji 杨远骋55:13

我们正好就问到第八个问题，就是为什么梁文峰能够带队 DeepSeek 做出来这样的成绩，而其他国内的大厂我们就不点名了，反正也就那么几个吧，大家都知道是谁，为什么他们做不出来呢？

李乐丁55:27

主观想法我觉得很多时候还是 KPI 压力太大，KPI 的压力设置可能不太合理吧，因为应该是说梁文峰他们团队是没有 KPI 的，就是大家还是更多的秉承着就是纯粹的 researcher 的态度。

我们不一开始假设某一条路一定正确，我们就是大家一起讨论看看哪条路 OK，OK 了我们就投资着去做，做不成那便做不成，效果差可能我们再坚持坚持，如果实在看出来效果差可能换一条路线等等。

我觉得这个是这是一个正常的进行科学探索的道路嘛，对吧？我们之前从小我们就我们就学爱迪生如何发明灯泡试了那么多次，那你不失败哪来的成功呢？

但是恐怕在大厂工作它不是这样，大厂虽然资源多得多，而且大厂的人才肯定也多得多，数据也多得多，但是压力也大。

如果很多时候就是如果你这一版模型不能把效果提升个 3%、5%，可能就保不住工作了。这个确实会影响大家做事的方法，可能不太愿意去尝试那些目前看起来不行的东西，更愿意说就是萧规曹随嘛，前人这么做了，然后我在它的基础上扩大点规模再去做，这样的话是能够活下去的方式。

我这就主观一点而言。

Koji 杨远骋56:54

其实这里又到了第九个问题了，就是看上去 DeepSeek 的胜利是工科生的胜利，是技术的胜利。问题来了，AI 时代的产品经理们要怎么办呢？

李乐丁57:05

我觉得产品经理对于 AI 太重要了，太重要是灵魂，这真真这是这个是灵魂。就是说这个之前我觉得就咱们也别都说好，咱们也再说点不好，咱们也泼个冷水。

就是说实话，现在的 AI AI 的模型的发展与 AI 应用真正的诉求是不一致的。R1 确实非常棒，O1、O3 都非常棒，但是应用需要的不是这样的，应用需要的是稳定可复现的能力，而不是稳定可复现且应用需要的是稳定可复现且可 scale 横向扩展不同领域的能力，而不是在某一个 math 这个纯粹的领域上做得很好，但是又不能百分百正确。

这个是跟应用的需求不一样的。比如说我们其实前面说到就是大家一个共识，除了说 pre-train 的撞墙，post-train 的希望，还有一个第三共识就是应用并不会选择最强大的模型。

现在应用的普遍做法是用小模型，甚至非常小的模型，不再追求模型有很强的推理思考等等能力，把这些所有的问题交给其他，交给比如说产品经理写的 prompt engineer，交给我的 RAG 系统，交给我的一个外部程序来进行判断，将逻辑留给传统的地方，然后只让 AI 去承担类似于传统 NLP 的工作。

这个是现在应用的实际用法，因为从应用的反馈来看，现在的模型确实达不到大家想要的质量，所以我们只能退而求其次，把它最好的那部分东西，能用的那部分东西拿过来。

于是乎咱们这里说了那么远，产品经理的作用是什么，简直无比太重要。产品经理要去定义产品中的边界，要去明确哪些那些 AI 真的在现实中完成不了的事情该如何做。

就像我觉得咱们上次在聊的时候，我就举过这样一个例子，就比如说我让 AI 去定机票，你无法想象两年过去了这样的产品还是没做出来。

为什么？哪怕有了 O1，其实 O1 美国人用上六个月了也没做出来，也没变得更好。为什么？就是因为实际在做的时候，这订票不是一锤子买卖，你是不能一开始就提前跟 AI 说清楚你到底要什么票的，不可能说你给我定一张明天北京到北京到上海几点钟，哪个航空公司的经济舱还是什么公务舱，还是你要不要升舱等等，我是不可能提前说出来的。

我一定是中间需要不断地看，需要不断地想，跟我的行程做对比，中间有很复杂的流程，这个流程是 AI 不可能一步提升的，中间如何来提升整体效率，这一定是产品经理。

所以可以说产品经理才是真正 AI 走向应用的灵魂，它是决定了这里面的工作。我们完全在这个层面上没有替代到人。

我们可以看这样这样的一个例子，就是现在比如说 RAG，RAG 的大量的应用是做企业内网搜索，做过 RAG 的同学其实都能想到最好的实践是什么，是 RAG 的

语料的内容是只通过你的搜索系统内部内网检索系统查出来的，而你要用 RAG 里面的知识，而不是让用模型自己的知识，因为模型自己的知识会幻觉。

但是你要用模型的语言的能力完成 LM 的理解总结等等的事情，这应该是一个 RAG 提供知识，LM 提供能力这样的一个好的组合。

但现状是真正用起来的时候发现它们两个边界是不能精确控制的。经常出现的情况就是模型输入结果耦合了 RAG 的知识和模型自己的知识，甚至模型自己的知识用得更多，这就出现了幻觉。

而反过来有时候经常会出现虽然完全应用了 RAG 的知识，但是 RAG 的数据又反向压制了 LM 自身的能力，这些情况经常出现，但是想要改变挺难的，因为你不能重新训一个模型，这就只能在你的 RAG 系统之外再加额外的方式去做。

所以从这个角度来说，就是大模型用起来它也有这个问题，而大模型你也不能去改它，然后你的翻新成本又更高，不如用一个小模型把更多的活儿，逻辑的工作，这些稳定性的工作留给 RAG。

应用影响1:01:42

Koji 杨远骋1:01:43

这个很清晰。好，我们进到第三部分，就是 DeepSeek 发布之后对于 toC、toB 以及 toD 这个 toDeveloper 的各种各样的影响。第十个问题就是 DeepSeek 的发布，尤其是 R1。

李老师你会认为它对 toC 的各种各样的产品带来了哪些影响？

李乐丁1:02:04

我觉得它对于 toC 其实它对于整个产业都是有非常大的影响，因为成本实实在在的被降低了一个数量级。

今天当然我们的 AI 应用很多时候并不是卡在成本上，而是卡在能力上。如果这部分成本降低的话，我是可以将更多的预算留下来去引入人工的。

这时候我的让我让产品经理在偏人工这部分去做更多的这种规划和设计，这样 toC 的产品可能会做得更好。

这是其一。其二就是原先那些确实已经用 AI 的地方，但是因为成本原因，比如说基础的 NLP 理解，比如说基础的规划等等，这些东西都可以用起来。

这块可能会带来一个阶段性的一个高潮，让大家都去尝试。

Koji 杨远骋1:03:04

对 toC 的这些产品的影响，就是比如说大家会认为现在好像模型就变成了产品，它会淹没掉很多的产品，这个你有这样的感受吗？

李乐丁1:03:15

我不认为这是这样的，我确实不认为是这样。在我看来就是因为我观察到就是实际上无论是 OpenAI 的 APP 还是像其他的 Gemini 或者是国内的一些 APP，它如果你看现在的数据分析的话，会发现它们的

用户时长都不是特别长，包括我们从自己使用的，其实每天使用的次数都不是特别多。其实这很大程度反映到是我们现在还没有准确的抓到大家的需求痛点上，可能确实是因为这个行业它技术发展的太快了，还缺乏足够优秀的产品经理过来去定义什么样的东西用 AI 解决的最好，以至于当这个大家的需求没有被正确的定义定位满足的时候，大家

只能去尝鲜，去去看谁家的技术更好一些，所以才带来了这样的影响。我觉得后面整个当整个市场进入到一个更加完备的运转的时候，有更多的产品经理进来去界定的话，就不会是这样，除非 AGI。

Koji 杨远骋1:04:26

对，我也是这么认为的。好，我们第十一个问题，就是 DeepSeek 的发布对于 toB，toB 又分为 toEnterprise 和 toGovernment，你会认为带来了哪些？

李乐丁1:04:37

对于 toB 和 toD 这两个方向，我觉得影响这个可能是很深远的。就是因为观察到就是在 DeepSeek 上线之后非常短的时间，Azure 就开始支持使用 DeepSeek 了，然后 AWS 很快也跟进，对，今天几乎所有的一线云都跟进了，允许你使用 DeepSeek 作为你的推理模型。其实这会产生这样的一个问题，我们在之前开源中我们就观察到，如果一项技术它的上限提升不再快速前进的时候，这时

候对于各家商业公司来说，它的生存危机就消除了，因为不会因为不会再出现。如果我没有立即跟进最先进的模型，六个月之后别人出来的模型巨幅改善了效果，直接隔了我的命，这种情况可能就不会出现了。在这种情况下，各家可能就会将它的模型研究重点从军备竞赛卷，谁能够做出一个 GPT-4 级别的模型变成更加理性，我让我的研究团队转

向于类似于 DeepSeek 的这种方式去探索超越 Transformer 的下一代模型，这部分什么时候能做出来不着急。而与此同时在产品方面直接使用开源的 DeepSeek，大家都具有同样的产品，我们几乎所有的中国的互联网公司，包括美国的互联网公司都大量使用开源软件，大家都使用 Linux，大家都使用 MySQL，大家都使用 Redis，开源软件使用量非常巨大，无非是就是当大家发现当开源真的已经是业界最

好的时候，不再有生存危机的时候，没有道理不用。所以可能整个 toB 都会产生影响，尤其是中国这块我觉得会有深远影响。

当然美国这块，我觉得美国可能也会有自己的 DeepSeek，因为毕竟由于像 Anthropic 等等，由于今天现在美国的这个政治环境，它可能对于中国还是有敌视的，他们很可能不愿意看到一个来自中国的产品在美国也做大生态，可能他们自己会做一个类似的东西出来吧。

但我觉得就是如果大模型上限不再提升的话，可能将来 toB 方向大家用的都是开源模型。

Koji 杨远骋1:07:06

好，我们的第十二个问题，就是对 toD，因为 toD 也是大语言模型一个非常重要的方向，AI Coding，toDeveloper，李老师你会认为 DeepSeek 它有带去什么样的影响吗？

因为我看到其实 Cursor 他们有官方出来发言说，其实这个目前不管是他们自己的评测还是用户的反馈，仍然认为 Claude 3.5 Sonnet 在写代码上还是一枝独秀的。

李乐丁1:07:32

对，是的，是的。我觉得对于 toDeveloper 来说可能是影响最小的，因为刚好 Developer 的这个方向是 Claude 是 OpenAI o3 是 R1，他们都在最擅长的方向，而这个方向后面还在快速的发展，所以谁能够领先都不确定，可能中间之后还会有很大他们的之间的位次还会大量的变动，而这些模型能力的好坏直接决定了就是像类似于 Cursor 这样这样的 toDeveloper 的软件会使用什么样的模型。

但我觉得没关系，就是这样的竞争才会诞生出新的技术，也许我们确实这个阶段性的又落后于美国了，那又如何呢？

再过一段时间我们有很好的研究，我们还会超过它，可能最终受益的就是开发者，每个人手里都会有一个很好的 AI Chatbot 帮助他去做一些写 code、写测试、写文档等等这些这些事情，真的好事。

Koji 杨远骋1:08:42

对，确实很精彩。我其实刚才突然想再回忆，就在我人生前面三十几年，有什么时候有如此感觉到科技的进步就是在你的眼皮底下发生的，就之前好像并没有如此强烈的感受，但这个就好像。

Ronghui1:08:59

第一次用 iPhone 的时候。

Koji 杨远骋1:09:01

对，但是第一次用 iPhone 之后并没有出现你追我赶，比如说今天用了 iPhone 过了三个月发了一个微缝，没有。

所以这个感受还蛮奇特的，我觉得可能也是人生仅此一次吧。我们第十三个问题是想看一看 DeepSeek 的发布对于 AI 应用的影响。

对，因为其实在 DeepSeek 发之前，我不知道大家是不是还记得，因为现在新闻实在是太多，但十字路口在那个时候是做了两期内容，我们其实是很激动的。

就 Devin 的发布会意味着它标志着 2025 年甚至是这个 AI Agent 落地的一个元年，但现在 DeepSeek 这么一发布会对整个应用领域又带来哪些影响呢？

这个李老师其实前面也提到了一些，看看在这里有没有一些这个额外的补充。

李乐丁1:09:49

对应用来说，我觉得其实它相当于 toB 的一个延展吧，就是一个就是应用我使用什么样的技术栈，这件事情我觉得就是 toB 的问题，可能大家都会转向开源模型。

这个这个情况我觉得是很有可能会发生的。另一个就是应用本身会不会因为 R1 的发布而大幅前进的，我对这个事情是比较 question 的，因为站在应用角度上还是那个大问题，就是应用需要的能力是确实是现在的 LM 不具备的。其实我们看到就是 o1 出来几个月，大家也没有哪个 APP 说因此我的我原先解决不了的问题就解决了。

然后我们会看到越来越多的应用在它不在使用，在尝试过所有模型之后，我觉得我可以不需要不必使用 GPT-4 这种超强的模型，我不必是甚至我不必使用 Claude 这种这种非常强大的模型。

我在美国看到一个特别有意思的事情，就是当你去问到很多人，你问到就是 Google 的 Gemini 那个 APP 怎么样的时候，大部分人反而说不太好，这这这个模型有点笨，没有 ChatGPT 好。

但是如果你问他 Gemini 的 API 怎么样的时候，大家都说好，因为 Gemini 的 API，Gemini Flash 确实又便宜又快又好，从性价比来说，Gemini 2.0 Flash 甚至比 DeepSeek 更高，这个我们可以看大家的这个实际定价，尤其是 Google 有 TPU 的支持之后，它的成本是非常低的。

所以对于应用而言，我们早就走向了一个可能跟今天 LM 研发方向不太一样的道路。应用大家都在用小模型，都在都在玩 RAG，都在玩 prompt engineering，跟这个不太一样。

所以我觉得从应用前端这部分角度来说，可能变化不会太多。

Ronghui1:11:50

这个 Gemini Flash 它其实也是一个推理模型，但是它几乎没有什么名气，好像。

李乐丁1:11:57

对，是的，这可能是 Google 在 PR 方面这次做的不太好吧，效果实际上是很好。它的 Gemini 2.0 Flash 的效果也是 SOTA 级的，就是它它它跟原先的那些 GPT-4 等等也是同等级别的，但是它的成本非常非常的低廉。

然后同时还有一个 Gemini 2.0 Flash，thinking 是一个带推理的思考的模型，也是效果。这李飞飞的论文就是从它里面去整理我的数据，能力也很强，只不过在 benchmark 上现在打搒可能还差一点。

然后 Google 最近也发还发了别的模型，它还发了它的 Flash Lite 模型，就进一步降成本。我觉得 Google 在这方面看得很清楚，因为 Google 实际上是全球最大的应用玩家，最大的 AI 应用就是搜索，它这边看得很清楚，将 AI 的成本降低绝对是推进已有应用更大规模上 AI 的一个重要重要手段。

所以它一直在讲这个东西，但确实这个 Google 可能也是大公司病缠身吧，它最近这个 PR 方面做的确实是不太好。

Koji 杨远骋1:13:07

对，我觉得产品也做得很差，就是这个 Gemini 2.0 Flash thinking，它是藏在那个 Google AI Studio 里面，而那个 Google AI Studio 那个那个界面真的不是给普通用户用的。

我是一开始它发的时候我也用了好几次，确实非常 impressive，但是后面就这个入口太深，每次使用还要再重新去想一想我要怎么点怎么点，好几次之后我也懒得用了，确实这个有点可惜。

好，我们到第十四个问题，就是 DeepSeek 这一波出来之后，非常快的在好几十个国家的 App Store 都上搒到搒一大哥的位置，而且同时也是历史上吧，好像是最快从 0 到 3000 万到 4000 万日活的这么一个用一个这个应用。

但是另一方面就我们也看到 DeepSeek 它内部卡本来也不太够，应用的这个大规模流行其实影响了它的，据说影响他们的训练，所以他们其实也迟迟的并没有把这个就是对应用稳定的维护好像放在第一优先级，貌似他们仍然是想把这个更多的卡拿去做训练，而不是拿去服务 C 端的用户。

李老师你会怎么想，就是 chatbot 对 DeepSeek 重要吗？他们之后你预测会如何去进一步的做他们的 chatbot，还是这个会慢慢的觉得也不重要就不做了？

李乐丁1:14:30

这个问题这个会不会这个重不重要，这个这个问题我回答不了，这可能只有梁文峰自己想自己来决定。

但我就说从我的情感角度来说，我不希望他做 chatbot，因为一旦做 chatbot 的话，就会和大量的产品化的工作，因为大量实际用户我们在真正用的时候不会天天的去问复杂的应用题，不会问问这个你你多步骤思考一定考不好。

我们的考量点不是这样的，产品化关注更多工作日用性的问题，而这些问题的话会做很多额外的工作，以及如果你放了产品化，你会关心更多的产品的质量，你的这个可维护性等等，这些东西都会牵扯大量的精力，就像今天 OpenAI 遇到的问题一样。

所以从情感角度来说，我觉得中国不需要 another app，中国需要一个 OpenAI，所以我希望它别做这些东西，就是简单做一做，让大家体验一下就可以了，别把精力放在这，还是继续做我们的原创技术。

我觉得这个是让大家最兴奋的地方。

Koji 杨远骋1:15:35

其实我们年底就大概去年 12 月吧，有一期内容是和晚点的曼奇来复盘大模型这一年，然后这里面其实有盘点各个国内的模型厂商，其实当时也提到了 DeepSeek，然后在提到 DeepSeek 的时候，我记得当时有一个印象非常深刻的故事，就是梁文峰在一次对外的表达里面提到 DeepSeek 不在乎商业化，而且是不做商业化，因为他认为任何对商业化上的尝试都会影响，都

会稀释，都会分散掉他们在科研上的注意力和投入。所以其实刚才李老师你讲的这个愿望和他不做商业化有点一脉相承，就是不要做商业化，甚至 toC 产品都不要做，就好好做科研吧，在这里可能才是最能搞出 ROI 最高的回报的地方。

李乐丁1:16:23

是的，是的。

Koji 杨远骋1:16:25

好，我们到第四部分，我们来聊一聊未来。第四部分的问题当中的第一个，也是我们整体的第十五个问题，就是在未来算力还重要吗？

未来展望1:16:25

Koji 杨远骋1:16:36

这个其实是牵动着万千股民的心，因为很多人都买了英伟达，因为如果这个算力不重要，那意味着巨头们的持续在芯片上，在算力上的投资也会下降。

这个李老师你怎么看？

李乐丁1:16:53

这个我坚持我一直以来的暴论，我就我我觉得算力不要去再投资算力了，就是投资算力其实还是归根到底还是去坚持 pre-trained scaling law，但这件事情我明显看出它的它的上限到哪，然后到了欧美其实降成本的方式有很多，只是很多时候大家没用。

然后 DeepSeek 既然出来了，大家都会关注去降成本，以及说推理这块推理的实际应用也是大家在用更多更多的小模型。

所以我觉得阶段性的而言，对于算力的需求一定会下降，特别是如果我们之前面那个预测就是当模型能力不再上升，toB 都开始选择走开源模型的情况下，大厂不再做军备竞赛的情况下，那么也就没有什么再消耗的训练算力了，而推理可能阶段性的还会下降，因为大家都会用小模型，直到说我们的 AI 应用迈过了产品化的门槛之后再去上升

。所以中间阶段性来说，我觉得现在没有必要再去卷算力了，应该大家把精力还是放回来去卷算法，去卷那些超越 transformer 的知识。

我们让模型学了一万亿的 token，几万亿的 token，它还没学明白为什么 3+5=8，这是不对的。

Koji 杨远骋1:18:22

有趣。那如果李老师这个暴论是认为算力不重要了，不要再搞芯片了，不要再投资买芯片了，那第十六个问题，就是你认为在未来数据还重要吗？

拥有独家数据的公司，这还能不能构成他们的壁垒？

李乐丁1:18:38

我觉得数据比算数据比算力更现实，这个还是很重要的，尤其是垂直方向，这个还是很重要。其实我们之前的各种各样的应用，无论是搜索还是推荐还是短视频等等，都证明拥有数据，拥有数据的分布对于提升质量的价值有多么重大。

因为归根到底，今天的无论所有无论是 AI 还是大数据等等，这些都是统计模型，所以数据越多，统计的效果也就越准，所以这个还是很重要的。

但是不要迈过一个太高的门槛，就不是说当我已经积累了几万亿 token，然后训练模型，然后还继续堆数据，其实那个就我觉得就没有必要了。

但是基础性的这种数据还是一个非常重要的壁垒，而垂直应用方面的数据，或者说垂直数据就是垂直知识行业认知，这个永远是壁垒。

Koji 杨远骋1:19:37

我们来到第十七个问题，我们来大胆的预测一下 DeepSeek 的下一步，或者说正我们正在录播客的此时此刻，梁文峰和 DeepSeek 的团队，他们在想着下一步要做什么，他们的 to-do list 里面包括些什么？

李老师你有一些大胆的预测吗？

李乐丁1:19:55

我觉得如果是我的话，我会沿着 v3 现在和 R1 未竟的事业继续去做。我觉得一个事情是我们要继续探索一下 R1 zero 这条路，它的上限在哪里？

我觉得这个值得说，我们已经走了 8000 步了，那再往后走会怎么样？我我觉得大概率走到一万步、两万步，可能效果都是都都会提升，但是走到什么多少步骤的时候，这个边际效应会递减，这个值得去探索。

以及另外一个很重要的问题，就是能不能通过纯强化学习的问题，真的就直接解决了模型不说人化和语言混合的问题。

毕竟它蒸馏一轮，这不是一个特别优雅的方式，做技术我们还是要追求一些优雅性嘛。我觉得这些都值得去做，以及说它的 v3 里其实开了很多很多新的探索，比如它那个 MTP multi token，还有它的这个新的路由算法，这些路由算法在 v3 里收益都不明显，它它做了明确的实验，这这个论文数据里都有。

那但这些东西也是都是很 permissive 的，我们完全可以有资源的话到 v4、v5 去继续做实验，这个我觉得他们会去做。

然后我觉得还有一点，其实他在论文中也写了，后面去探索超越 transformer 的其他的新的模型，其实这一点是我最希望他去做的。

这样这前两天 LeCun 还在他还在去讲，就是未来如果你真的想实现 AGI，那一定不是自回归模型，一定要去尝试通过概念，通过这个世界知识等等方式去做。

我还是希望能看到我们的这些研究部门去尝试真的从大的 idea 方面去超越 OpenAI，去超越 DeepMind，去去想一想完全迈向 AGI 应该怎么走。

Koji 杨远骋1:21:49

我觉得李老师还是对 DeepSeek 寄予厚望，我觉得和大家都一样，感觉这个如果我们真的要

期待更多奇迹的话，感觉 DeepSeek 确实是很有可能能够不断的带给我们这种信念感和力量感。好，那这个时候就第十八个问题了，那除了 DeepSeek，我们还是有非常多其他牛逼的公司和主要的玩家的，那也想请李老师来帮我们这个大胆的预测一下接下来字节、腾讯、阿里他们分别会做什么？

李乐丁1:22:18

我觉得作为商业公司来说的话，就是如果没有切身的这个生命危险，就不如果短期观察不到这个某项技术会快速发展，直接颠覆自己的话，那么他们的策略，尤其是同时又观察到这项技术成本可以大幅降低，又开源的时候，他们的策略一定会做一些 review，做一些调整吧，就是可能没必要在这个原先那条路上继续巨额投入去去去去烧了。

不如说我们也在这个开源的基础上去改去做一些更多的改进，以及说我们也去做 research。其实我觉得就是用开源做改进，再加上一部分针对于自己的第一方研发，然后再加上一个面向未来的探索，其实这个才是大厂工作的常态。

过去十年来这个大大厂工作常态是这样的，而不是说我我就一定在某一项还没有定论的基础上疯狂投入，就这个不正常，可能他们一段时间之后都会有所调整吧，我觉得。

Koji 杨远骋1:23:33

OK，那我们第十九个问题，就是我们再来聊一聊美国，就是美国不管是 Meta、Google、微软、亚马逊还是 OpenAI 和 Anthropic，他们下一步要做什么？

这个李老师你会有一些信息或者有一些预测吗？

李乐丁1:23:49

美国这边我觉得美国人肯定是被吓着了，这这这一点是肯定的。但是就是不同的人他下着的地方不一样吧，就是如果说研究者们，其实咱们客观说，就是一流的 researcher，其实大家都知道前进的方向大概是什么样子的。

所以在这个方面的话，我觉得美国目前来说仍然会是这个原创者，所以很有可能下一个小突破吧，或者或者是或者是大突破，还是有更高的概率会出现在美国，大家会做这方面的事情。

这个这个就就就就客观看待吧，就还是需要时间追赶的。然后另外就是美国的那些大公司其实也一样啊，就是我们据我了解，像像 Meta 也在 review 自己对 Llama 的巨额投入是否是一个正确的方式，想来他们应该也会跟中国这些商业公司是一样的会去做。

然后我觉得美国很有可能，我这我这我大胆猜测，美国很可能也会有一个跟 DeepSeek 对标的一个开源产品吧，满足美国人自己的这个自我安全感吧。

但但与此同时，对对于其他的，就更多这个在业界之外的人来说，这个这简直太可怕了。本来他们觉得世界独一无二的技术，结果不光技术上被中国破解了，成本上也被中国大幅压低了。他们他们应该恐怕恐怕会做出很很很很多这个行为吧。

但但又又如何呢？又如何呢？对不对？今天我们必须得承认，今天中美就是全球唯二掌握最先进科技的国家，只有只有这两边，我们先验科技，我们有互联网，有云计算，有人工智能，有新能源，有自动化机器人，这些中国已经有了，你拦是拦不住的。

所以与其花那个时间去搞阴谋论，不如自己多努努力。

Guest1:25:49

我看到几个分析在说，这个目前看到可能受影响比较大的，就是可能是偏向负面影响的，就是主要是 Anthropic 跟 Google。

李乐丁1:25:59

Anthropic 和 OpenAI 可能压力比较，最大的可能还是 Llama 吧，就毕竟以前是这个开源第一，现在可能这个地位不保嘛。

Guest1:26:08

我看就是很多人都在讨论这个模型商品化，然后模型商品化跟推理成本的降低，给各个厂商接下来带来的比较大的影响。

李乐丁1:26:18

这个这个我觉得

模型商品化这这个东西是对的，但但说这个一定是 DeepSeek 导致的，我觉得也未必，这只能说是大众终于感受到这一点了。其实即使没有 DeepSeek，模型的低成本化商品化一直在进行，过去一年一直在进行。

我们会观到模型，大家日日用的模型从一开始千亿模型迅速降到百亿模型，降到甚至几币几十币，这个这个下降的下降的趋势还在继续继续。

我们要推进应用一定是要降低成本，这个这个是不可改变的。

Guest1:26:57

OK，那第二十个问题，就是看对 DeepSeek 的一些分析的时候，有这个想到想想到之前这个 Peter Thiel 他曾经讲过，就是说他觉得一个真正的创新是要在许多不同层面的创新必须同时发生，然后并且是以高度的协同的方式组合在一起。

如果李老师总结一下，就是 DeepSeek 它在这个应该说其实是这个 R1 在低成本推理的这个方面的巨大的成功。

如果按照 Peter Thiel 的这个说法的话，你总结下来是在哪些方面？

李乐丁1:27:28

OpenAI sorry DeepSeek 它的创新其实蛮多的，但是咱们坦白说啊，其实就是很多创新也不也并非 DeepSeek 原创。我们在他论文他的引用里其实都会看到很多的想法是在一些研究者中他们率先提出的，然后 DeepSeek 是是首先将它在开源的里面去大规模的去应用了起来。

就是我就很难说一家公司就把所有的原创都都都囊括了，但我觉得就是最重要的一点还是说能够坚持搞科学的一个基本原则，就是无论是科学还是创新都是没有固定方向的。

它是不可预知的，它会有很多很多不同的方向，在这些方向中你要去认真的去试验，去尝试去做。

我觉得去做这件事才是最重要的。

Koji 杨远骋1:28:34

我们今天谢谢李老师，这也是十字路口第一次尝试用这个二十问的方式来去聊一个话题。我们希望这种方式可以让我们比较全面的从各个层面去了解一个热门的议题，了解一个热门的技术或者一个热门的产品。

那再次感谢李老师的时间，也欢迎你以后再来十字路口。然后 DeepSeek 也是一个我相信会热度持续很久很久的产品。

那如果听到这里的朋友有什么想要分享的，或者有什么想要提问的，欢迎大家在评论区给我们留言，我们看到都会回复。

谢谢大家，也再谢谢李老师。

如果你认为有朋友也会喜欢本期十字路口的内容，请转发微信推荐给他们。最后欢迎你加入十字路口的会员群，我们鼓励大家在群里聊天互动交朋友，寻找未来的同路人。