十字十字路口Crossing2026年6月21日· 38:24

对话 MiniMax 闫俊杰:M3、10X 计划、10T 模型、和智能的终局

本期十字路口在MiniMax Dev Meetup现场录制,Koji对话闫俊杰(IO)、张佳圆、何涛和虞扬。IO分享了M3的关键突破——token消耗超预期10倍,并阐述训练10T大模型的决心与路径,认为中美模型差距为两代。嘉宾们围绕AI Coding拐点、工程体系 vs 次抛代码、基模与Agent关系展开讨论,MiniMax开始招聘核物理学家等专家,转向让AI帮助人类理解AI。

  1. 0:00开场介绍
  2. 1:41M3突破
  3. 4:33M3实践
  4. 6:26DeerFlow
  5. 9:43金融AI
  6. 12:45模型与代理
  7. 14:3510T模型
  8. 18:19AI编程
  9. 27:37数据转型
  10. 31:19未来押注

转录文稿

开场介绍0:00

Koji 杨远骋0:00

嗨 , 我是 Koji, 那这期播客呢是我在 MiniMax Dev Meetup, 就是核心开发者的一个聚会上主持的一场圆桌讨论 。 嘉宾呢包括 MiniMax 的创始人和 CEO IO 闫俊杰 ,也包括 3 万星的开源项目 Multica 的创始人张佳圆 , 和 7 万星的开源项目 DeerFlow 的核心负责人何涛 ,以及一位上市金融公司的技术负责人虞扬 。

然后我其实自己啊 , 我是有点这个 surprised, 一看说 " 哎 ,IO 也会来 ",而且分享了那么多 , 所以今天想问 IO 的第一个问题也是 : 这个活动为什么对你来说这么重要 , 你自己花那么多时间来参与 。

闫俊杰0:46

其实我们这个主要是感谢各位 , 然后花时间一起来这个分享 , 包括那个何涛 , 何涛其实坦白说是 ,他是一个非常好的开源项目的这个作者 ,他们那个应该是那个 。

Koji 杨远骋0:57

7 万 。

闫俊杰0:57

对 ,7 万 。 呃 , 包括佳圆 , 佳圆的话其实那个很早之前就其实跟我们提了很多的建议帮助啊 。 对 ,其实核心还是感谢大家了 , 就是说那个 , 就是刚才说的 ,其实也是我们第一次来办这个活动 。

我们那个 , 我们觉得就是 AI 编程或者生成 AI, 它其实不会让从业者越来越少 。 就比如说可能在两年前 , 当时我记得我曾经问过另外一家公司的一个人, 实际上我当时问过梁峰说 " 哎 , 你们要不要做 AI Coding",他说不做 。

为什么呢 ? 因为全中国会写代码的人可能只有一 , 只有只有 100 万还是 200 万人。 对 , 这好像不是一个很大的市场 。

就两年前都是这么一个理解 ,但现在显然不是 , 对吧 ? 因为 AI 这件事确实是可以让更多的人可以有生产力了 。

我觉得这是一个非常好的工作的变化 。 但是即使就是即使这个事它可以让很多人普惠 , 它的核心还是说 , 一开始有一些真正热爱这么来做的人, 然后在这个里面 , 然后把它给传播给更多的人。

M3突破1:41

闫俊杰1:52

然后我觉得今天是我们是第一次吧 , 反正我们后面也会把它变成一个持续性的这么一个呃事情吧 。

Koji 杨远骋1:59

就从 M1 到 M3, 我们看到了非常多的突破 , 然后很好奇就是你觉得哪些突破是符合预期的 , 哪些突破是还没有达到预期的 。

闫俊杰2:10

我觉得就是一个比较客观的指标 ,其实是 token 消耗量 。其实 M1 的话 , 我觉得我们实际上是这个 token 消耗量其实是比较低的 , 广泛来说 。

但是因为当时的 M1 的话 , 我觉得是坦白说那个模型其实它自动的效果不太好 ,但是其实实际上我们从做 M1 的时候就感受到了这件事 。

就有一个很经典的桥段啊 , 就是说什么 " 瘫坐在椅子上 ", 什么 " 后背发凉 " 这种事 , 我我们有这种感觉 ,其实是在做 M1 的时候有这种感觉的 。

就是就是在做 M1 的时候 , 第一次跑通那个传感器的时候 , 然后那个时候我记得特别清楚 , 去年五一假期呢 , 那个时候反正就是第一次感受到这个这个东西吧 。

但是那个模型其实没有怎么做成功 。 然后呢到 M2 的时候呢 , 去年下半年, 那时候大家最关心的评测是其实是 Arena 我记得 , 对吧 ?

哎 , 那所有人发布都会讲这个东西 。 我们那个时候就非常明确 , 我们就只做 coding 的 agent, 然后我们就不管那个那些不相关的那些对话的那些场景 , 我们真的是这么来决定的 。

然后这个决定其实让我们公司里有很多的质疑 , 就是为什么你不管这些东西 。 然后但是我们就这么做了 , 然后这么做了之后呢 ,其实我们一开始 M2 刚上线的时候啊 , 我们觉得这个一天消耗 1 万亿的 token, 我们就满意了 。

呃 ,但是对那个目标是这样的 。 然后那个结果它那个呃到 M2.7 的时候 , 大概就变成了 10 万亿的 token 一天 , 基本上就是相当于我们目标就超了 10 倍吧 。

然后呢 M3 的话呢 , 就是说我们其实是定了一个更大的目标 ,但这目标还没有完全实现啊 。 对 , 然后呢就是说从通用销量的角度来说 , 我觉得呃其实还是比较超出预期的 。

从能力上来说的话呢 ,是说我们在 M2 的时候其实就想实现这个多模态 ,但在 M2 的时候其实没有实现 。

然后呢我们在 M2 的时候能够到这个呃就是编程里面能够当一个主流模型来用 , 这个其实也没有实现 。

但它实现的东西是说后面出来的 open call, 出来的更关的 agent, 它它找到了这样一个市场 。M3 的话呢 , 就是说我们的两代模型目标 , 就是说可以无限制的来用这种不需要关心成本的来使用 surface 的那种模型 ,offline 的模型 。

然后呢如果这如果到这个东西再加上整个行业的大幅增长 , 我觉得从量能到一个非常可观的量级 , 我觉得我觉得我们在非常接近这个事 。

Koji 杨远骋4:19

OK 好 , 谢谢 。 然后佳圆刚才其实也有一个精彩的分享 , 就讲了 loop engineering, 然后你们在做它的时候用的是这个 M3,MiniMax M3, 用的过程中你觉得有哪些好与不好 ?

M3实践4:33

闫俊杰4:33

首先就是我们我们我们其实工作流里面有大量的这种可以去 pipeline 化的这个场景 , 包括去处理 gitHub issue, 包括去处理呃比如说做这个呃 customer support 等等一系列的这个场景 。

因为其实并不是所有的场景都需要用最高级的模型来去做 , 我们每个人自己都有好几个 Claude Code 的账号 , 呃加 Codex, 然后加上 Cursor, 可能有个几千美金每个月的这个 token 的消耗 ,其实成本是非常高的 。

那我们现在就在做的一个尝试 , 呃就是嗯单一的这个模型的能力 , 可能它或多或少可能在一些方面都会有 , 呃就是可能有这个方面不足或者那个方面不足 。

但是能不能去设计一个系统 , 来去把呃比如说不同的模型的能力去聚合起来 , 不同的 agent 的能力去聚合起来 , 它一定程度上可以弥补你的这个模型能力在一些情况下的不足 。

比如说呃我们我们发现 M3 它可能有一些时候会比较啰嗦 , 或者有一些时候它这个 sinking 的时间会比较长 , 或者它给你的这个结果里面不一定所有的点都是正确的 。

那这个时候你就可以呃用一个比如说其他的模型 , 比如说像 OPS 或者是 GPT 来去给它去做这个 review, 或者是作为它的 mentor, 对 , 然后让让 M3 来去作为 coding 的这样的一个模型 。

这个其实就是用系统的这个方式来去拟合呃这个单一模型的这个呃部分能力的这样的一个不足 。 然后我们实践下来呃发现它确实是呃能够达到你的这个 token 的这个消耗 ,以及呃整个产出的这个效果的一个平衡 。

未来你的整个公司里面的这个 token cost 肯定是你需要去呃考虑的一个一个目标 。 那这个时候你就需要去考虑怎么让不同的工作由不同的这个模型来去完成 。

Koji 杨远骋6:15

好 , 谢谢谢谢 。 接下来就请何涛介绍一下 97 万 star 的 DeerFlow。 今天的 DeerFlow 和一开始已经有很大的不一样了 。

呃就大家介绍一下今天的 DeerFlow 是一个什么样的 DeerFlow,以及它是什么原因让它那么的受欢迎 。

DeerFlow6:26

闫俊杰6:33

这个问题我是第一次代表我们团队在公开场合回答 , 然后我也跟我们团队讨论了一下 。 我先说一句大白话 , 为什么火这件事我们也没有追求出原因 。

可能很多时候 go viral 这件事就是上帝握着你的手写下了一行代码 , 或者是上帝握着你的嘴说出了一句话 , 让 Claude Code 或者 Cursor 写了一段代码 , 然后 X 上面有人帮你转了 , 它就火 。

但我想说的事情是 , 这里边的话其实 DeerFlow 它有两个身份 , 第一个身份是它是一个开源项目 , 然后这个开源项目的话 , 一开始初衷的话是我们在 25 年的时候发现 deep research 这样的任务非常贵 。

你首先需要有一个 200 刀的呃 ChatGPT 的 Pro 的订阅 , 那你才能去用几次 。 然后我们就觉得奸商开源必须得把你打下来 ,而且我们还要用中国的模型给你打个样 , 然后我们还连生图都要用中国的模型 。

所以在我们一开始的我们的初衷就是说 , 我们想用一种自己的表达方式把在电脑端要去做的一个事情 。

我们当时呃在一个大公司里面 , 所以我们的日常工作就是要写报告 , 然后报告的话可能还要有图表 , 然后有了报告跟图表之后, 那个时候还要生成像 Koji 那样特别优质的播客 。

最后的话 , 我们还希望它能够变成一段动画片 ,因为我们很多人都有小孩 ,有这种动画片剧 , 最后还有人说我想听音乐 , 那我要听音乐 。

所以说我得表扬一下 MiniMax 的 token plan, 这也是我们在 debate 里面就接入了 MiniMax token plan 的原因 , 就多模态是一个非常有魅力的事情 ,而且每个人的日常工作就是一个多模态的工作 。

我觉得如果要反推来说的话 , 这我觉得也是呃 DeerFlow 一开始 bag 对的一个点 。 我们一定要完成桌面工作者所有的工作 , 就是有可能一开始是残缺的 , 会被喷的 , 那我们要接受被人喷 ,但你要有 。

然后 DeerFlow 的话 ,其实这里面还有一个比较有意思的一个身份 , 就 DeerFlow 现在是一个社区 , 我们有呃 1K 以上的 contributor, 这个 contributor 是覆盖了除了北极南极以外的其他的所有的陆地地区吧 , 大概我可以这么说 。

然后而且还有经常会有人给我们用各种我们看不懂的语言提议说怎么样用 agent 去管理这样的一个开源项目 ,也成为了我们现在就是说不断在研究跟探讨的一个方向 。

然后以及我们现在被很多人去 complain 说我们的代码已经是史诗了 , 那我们怎么样再去说呃把史诗的代码再清扫一下, 变得更好 。

我觉得这也是就是今天来到这个 debate 能够跟更多的开发者一起交流的 。

Koji 杨远骋9:15

我理解这个其实也是所有的成功的开源项目都头疼的事情 。 最近 OpenClaw、Nanobot 都纷纷表达不得不这么做 , 再不这么做的话就受不了了 。

好 , 那我们在接下来先请教一下虞阳 ,在互联网金融这么一个垂直领域 , 你们又作为一家上市公司 , 你们现在在怎么用 AI 或者 agent, 哪些部分是看到已经产生了非常直接的商业价值 ?

金融AI9:43

闫俊杰9:43

呃好 , 我们这边是做这个 , 呃直接是做这个金融行业的 。 从我们用户的角度看来 , 它其实不是很会表达 。

我们的大多数用户他其实根本不知道他今天打开应用 ,他今天想干什么 。 一般来说 , 如果你打开一个比如说类似于那个航行软件 ,他总归希望是他目标是赚钱 , 对吧 ?

这是很明显的一个事情 。 那除了这个事情以外 ,但是他其实很难表达说我今天是要干什么 。 怎么呢 ?

他问的问题就是帮我选几只个股 。 这是我们收到了最多最多最多的一个一个问题 , 帮你帮我选几只个股 。

那你你你遇到一般情况这个事情就傻了 , 对不对 ? 比如说我现在问你 , 或者你问我 , 我也很难给你去选这个问题 , 对吧 ?

这是第一个 。 第二个 , 我发现我们很多的同类的厂商 ,他们做的东西是今天 , 比如说我我能够问问你 , 我今天某支个股怎么样 , 那他会给你去罗列很多的信息 , 然后就没有然后了 。

对 , 这个是一个很大的问题 。 所以我觉得从这个角度上来说 , 大家能做的东西第一步是筛选信息 , 这个也是现在所有 AI 东西大家都都在做的问题 。

第二个 , 我们可以降低很多人的门槛 , 大家都知道的很多一些一些术语 ,GPT-5.5 是什么 , 这个东西是大的还是小的之类东西 。

所以说从 AI 的这个角度上来说 , 它其实可以给你降低很多的门槛 。 它告诉你这个数字为什么是这样子 , 告诉你这个东西对于你的影响是什么样子的 , 这个是我们 AI 要做的事情 。

Koji 杨远骋11:00

然后再问一个很简短的问题啊 , 就是作为在这个上市的金融公司 , 你用不用 AI 帮你炒股 ?

闫俊杰11:08

呃哈哈哈 , 呃这是一个很好的问题 。 第一个是因为有合规的原因 , 我们这个是不能直接炒股的 。

第二个事情是 , 实话实说 , 我们自己有这样回测的一个机制 , 就是我们其实给用户输出的里面是不带投资建议 ,但是我们内部的版本有 , 我们可以根据我们自己的这个东西去做去做回测 , 我们大概大致胜率是多少 。

实际上来说 , 与我个人而言 , 我是我对于我们东西是无比有自信的 ,因为我们实际上有真真实实的数据能支撑着我们说这个东西我们胜率是多少 。

Koji 杨远骋11:35

呃那你会不会发现 ,其实很可能你今天的工资收入是比不上你去 follow 模型告诉你的投资建议去炒股的收入的 , 甚至远远比不上 。

如果是这样的话 , 那你会怎么办 ? 你有考虑过呃放弃工作 , 今天就开始 all in 去炒股吗 ?

闫俊杰11:52

这是一个很好的一个问题 。 炒股这个事情跟你一般去做那个大模型推理其实不太一样 , 它它不是一个文字的问题 , 就它里面其实会有很多步骤 。

你的信息要对 , 你的个人的画像要对 , 你的整个分析的状态要对 。 而且这是一方面 。 第二方面就是这些是东西都是实时是去变化的 。

你今天我做了一个决策 , 它说 OK, 没有问题 , 那很有可能市场下一步 , 比如说可能 OpenAI 就直接拿出来 IPO 了 , 那这是一个很大的一个事情 。

那你要做的事情是说 , 一 , 我要去预测说这个东西到底是好还是不好 , 这个是重要的 。 它接下来可有哪种可能性是很重要的 。

第二个事情就是说 , 当这个东西真的发生了以后, 你要怎么做 , 这个其实是比我告诉你这会怎么发展来说其实要要重要得多 。

Koji 杨远骋12:34

好 , 下一个问题还是想请教 IO,也是很简单的一个问题 。 嗯 , 你怎么看这个模型和 agent 的关系 ? 未来还会有 agent 吗 ?

模型与代理12:45

Koji 杨远骋12:45

还是只剩下基模 ?

闫俊杰12:48

哈哈哈

, 这个我觉得是这样 。 对 , 我觉得这样 。 我觉得比如说就我们回想一下, 比如说去年这个时候 , 坦白说我觉得去年这个时候是想不到现在的模型是什么样的 , 反正至少我自己是想不到的 。

因为因为你想 , 去年我们自己还在还还还在做 M1 呢 , 然后那个去年的话其实也没有 OpenClaw, 对吧 ? 去年这个时候 Claude Code 其实其实可能还只有非常少的用户 。

所以说呢 , 就是说按照这个道理来说 , 我感觉好像明年会怎么样 , 我觉得现在可能也没法预测 。

对 , 然后呢 , 那就是我觉得这也是就是 AI 里面比较神奇的地方 , 就是说相当于是说 , 比如说在 AI 这个行业里面 , 一年经历的事 , 可能可能就等价于其他行业要好几年才能经历的事 , 可能就应该就是这么这么一个过程 。

然后呢 ,并且呢 ,是说比如说模型的进步跟 Hans 的进步 , 它其实也不是一个互斥的关系 , 它其实是一个共同进步的关系 。

比如一开始坦白说 , 比如说如果假设没有 Claude Code, 就可能 Anthropic 的模型可能也不会这么火 。 然后再假设是说 , 比如说一开始 , 比如说 OpenAI 当没有做出来 GPT-5.5 的时候 ,其实 Codex 其实也做不起来 。

有了 GPT-5.5,Codex 才真正起来的 。 所以说我觉得这两个东西它可能就是一个就是相互的关系 。 我觉得一个视角是说 , 我们可以把那个模型加 Hans 都看成是说我们能够实现更高智能的一个手段 。

就是虽然说模型现在越来越强 , 我我们还是应该假定这个模型最终还是为或者智能最终应该还是给人类来服务的 , 我们应该还是得抱着这个前提来来 , 然后来想这件事 。

然后模型 Hans 就是两个手段 。 我我我我觉得是这样 。

10T模型14:35

张佳圆14:35

这真的很有意思啊 。 我想起那个是有一位计算机科学家叫 Adam King,他的一句很厉害 , 就是这个呃预测未来最好办法是去创造 。

然后刚才其实我记得这个 IO 在呃前面的分享的时候提到过一个 , 咱们 10T 的模型是必须要训成 , 然后现在已经就是它训成的中间最大的卡点可能有哪些 ?

闫俊杰15:01

呃对 , 它的卡点是这样的 , 就是说它它实际上没有特别的卡点 , 它的卡点就是需要时间 , 需要积累 。

就是因为原话是因为怎么说呢 ,其实你可以看到 AI 已经是个很大的产业了 , 就跟之前半导体是很大的产业是一样的 。

是一个产业的意思 , 就是说这个里面的话 , 它其实没有一个什么障碍说让一个事实现不了 , 就没有一个特别的障碍 。

它有的障碍是说为了把这东西做出来 , 它就需要时间 , 然后就需要积累很多东西 , 就需要实验的假假实地 , 比如就需要我们像现在这样 , 我们需要跟大家在一起 , 然后来分析说模型到底应该优化什么东西 , 什么东西需要变得更好 。

我觉得它就是这么一个积累的过程 。

Koji 杨远骋15:40

积累的具体是什么 ? 是比如说数据 , 是一些算法 , 还是 ?

闫俊杰15:45

基本上是这样的 , 基本上就是说模型啊 , 基本上它的特点是这样的 , 就是说嗯 , 比如说每提升一代 , 比如说你的参数量 , 比如说可以大 3 倍或者大 5 倍 , 你可以发现是说原来大家都知道 screen load, 对吧 ?screen load 外推 ,其实它不能外推那么多的 , 它只能外推一个一个几倍 。

如果比如说大了 10 倍之后, 可以发现你的很外推写上是失效了 。 那如果如果这个外推失效了 , 那又是你的结论是不一定对 , 那你这模型就是一个开盲盒 。

那所以说呢 , 这个事它的实质上是说就需要一代一代往上来做 。 我觉得其实可以看现在 , 比如说像美国的模型比中国的模型基本上是大 10 倍 ,10 倍的其实是一个是两代 , 基本上是这么一个差距 。

那那这个东西怎么做到呢 ? 就是说我们觉得这个量级的模型是要 , 反正对国内美加公司基本上都要再提升两代 。

然后那第一代的话 , 就把 3T 的模型先真正能做好 , 第二代就是基于这里面积累的经验 , 然后再来做 10T 的 , 基本上就是这么两个阶段吧 。

对 , 然后呢 , 这个里面的话 , 每一次的话 ,其实你可以发现 , 首先你的训练的功用变大了 , 对算力 , 对训练效率 , 对网络结构 ,其实都会有很大的一个变化 。

比如说这次 M3 里面 , 它计算量其实比较低了 ,但是它的 QUCatch 还是比较大的 , 所以下半我会进一步的来压它的 QUCatch, 让它的推理会更好 。

实际上, 比如说更大的模型意味着更大的参数量 , 比如说一般情况下就是说呃一个模型 , 比如它的参数是是是多少 , 它需要的数据量基本上是要参数量乘以 20。

那一个 10T 的模型意味着需要 200T 的数据 ,但全世界没有这么多数据 。 然后包括数据数据质量其实也是这样 , 比如说越大的模型 , 它就越容易来拟合这些噪声 , 所以说越大的模型对数据质量要求其实越高 , 相当于是数据量要大很多 , 然后质量要求也又高了很多 , 然后同时这个实验的 screen load 外推要大很多 。

所以所以它其实是一个非常大的系统性的一个挑战 , 然后我们只能一代一代这样往上来走 。 好处是说我我我们非常确定的认为 , 我们在过去几个月一直是进度速度最快的那一个 , 所以说我觉得我们还是对这个事坦白说比较忐忑吧 ,但是我觉得我们应该是能到的 。

Koji 杨远骋17:52

因为一开场这个 IO 分享的时候也说咱们进步速度最快嘛 , 全场响起掌声 。其实当时我也有点好奇啊 , 就是这个快 , 它的速度的这个 benchmark 是什么 ?

就从什么维度来讲 ?

闫俊杰18:07

就就比如说 , 比如说你看国内任何一个模型在现在的这个准则水平 ,不管你用哪个 AI 定义和他们这个模型在三个月前或六个月前的准则水平的比例 , 我觉得我们这个应该是其中应该是最多的 。

对 。

AI编程18:19

Koji 杨远骋18:19

嗯 , 谢谢 。 然后接下来一个问题是想和这个佳圆和涛一块来这个探讨 , 就是在完全依赖 AI 去做一个复杂项目的时候 , 现在到底应该怎么做 , 才能够把这个软件工程的实践做得更好 ?

闫俊杰18:37

我先来分享一下我的一些想法 , 就是首先这个就是呃因为因为现在呃 AI Coding 相当于是已经被商品化了 , 几乎人人都可以来去写代码 ,但实际上 vibe coding 这个事情呃从历史上来看并不新鲜 。

就是第一代的这个呃 vibe coding 的用户其实是产品经理 , 对 ,他过去其实已经是在 vibe coding 了 , 只不过他驱动的那个那那帮人是程序员 。

那现在其实人人都可以 vibe coding 了之后, 相当于是人人都变成了这个产品经理的这样一个角色 。 从这个产品的产品经理的这个角度上来说 , 就是判断一个产品经理是否好坏的标准 , 从来都不是说他做了 100 件事情 , 呃或者说是他看他呃这个题的需求够不够多 。

我觉得这里面更重要的一个判断标准是第一个 ,他怎么去判断要不要去做一件事情 , 或者说要不要不去做一件事情 。

因为你你几乎能做任何事情 , 那这个时候你不去做什么事情的这个你的这个决策标准就呃呃非常非常重要 。

然后第二点是呃就过去为什么我们就是呃软件开发发发展了几十年, 有各种各样的软件工程的理论 ,在这如果有一些比较古早的这个程序员的话 , 应该都可能可能看过一本叫 Code Complete 的一本书 , 对 , 叫 《 代码大全 》。

那那本书里面讲的就是怎么呃因为本身软件开发它不是一个人的事情嘛 , 它可能是一个一个组织的事情 , 包括说你的这个代码复杂度上上来之后, 你其实里面有非常多的这个需要优化点 。

那这本书讲的就是怎么怎么在一个复杂的项目里面去更好的去呃做开发 , 然后包括说避免这个项目的架构变大了之后出现各种史山的代码 , 怎么去让整个架构变得更加清晰等等一系列事情 。

所以说呃怎么去让这个呃一个一个项目不变成史山 , 这个其实是大家研究了几十年的一个命题 , 包括现在就是呃包括 DeerFlow, 包括这个 Multica, 它作为一个开源项目 ,其实呃每天都有大量的这个 contributor 提交代码 ,因为提交代码实在是太方便了 。

我们现在的一个做法其实是呃首先我们的一个核心的这个呃项目的维护者会去定义这个产品的这个呃它 roadmap 是怎么样的 , 它的这个呃品位是怎么样的 , 它要去做哪些事情 ,不要去做哪些事情 。

然后另外一点就是比如说一些呃这个外部的 contributor 呃或多或少可能会缺少的一部分的这个 context。 所以说我们现在在再去维护这样的一个开源项目的时候 ,也会去和很多的外部的这些 contributor 去对齐这部分 context, 对 , 这个是我们的一些经验 。

何涛21:18

佳圆分享的很好 。 然后我这里先说一个暴论啊 , 就是 vibe coding 从来没有人说是 vibe engineering,但是写代码从来都是一个 engineering 工作 ,而不只是一个 coding 工作 。

所以我特别讨厌别人说你是一个马农 , 你应该说你是一个软件工程师 ,因为你的职责是把它变成一个工程的东西 。Engineering 的定义从来不是一个一次性交付的产品 ,而是一个可以长期交付且持续有生命力的东西 。

所以这也是为什么就是现在的其实我觉得可能对 IO 对模型的同学也有一个 , 就现在的 Bench 不能从 SWE 或 SWE 的 Pro 来看 , 它都是一次性去解决一个问题 。

模型很容易会变成在 coding 任务上使命必达 , 你会发现比如说我怎么样 , 我一定要使命必达 , 就像一个就是非常努力的人一样 ,但最后他可能他努力了很久之后最后 OK 你告状 , 呃 OK just so so。

还有一点就是你会发现他这个东西你后面接着你接着他做根本做不了 。 所以我觉得从 coding 领域的话 ,其实从 Bench 上的话 , 它是可以做很多工作 , 就怎么样去定义一个就是说一个 agent, 它能够明白就在长程性的任务上怎么样去持续维护一个 codebase, 把它变得更好 。其实这就有点像是把人的这样一些除了写一次性完成一次性任务 , 还有长期维护一个项目的一个 task, 把它给

放到模型里面去 。 我觉得这是对模型的一个要求吧 。 还有一个就是我觉得是对人的要求 ,因为这一代的模型太有魅力 , 太有诱惑力 ,以至于会让你就是说陷入到一个极端 , 就是我觉得它是个魔法棒 , 我跟它说什么它应该是无所不能 , 然后它犯了个错 OK 我再跟它说一句它就好了 。

然后你就发现它总会在以一种相对来说比较讨巧的形式啊对不起 , 那我可以改正 。 有可能其实你就是有偏 , 人家可能是对的 ,他也会说这还能使命必达 。在所以在这个时候其实是需要一个人还是带有古早的呃我这时候我这时候再推荐一本书叫 Clean Code, 这本书里面就讲就是代码的整洁之道 , 很多时候是被先哲们已经全都列举出来了 。

所以这时候我觉得需要人多做一些工作 , 呃可能我们已经没有办法人力 review,但我觉得我做过的一些事情就是我会把这些先哲的东西全都蒸馏成一些 skill, 或者说像 Google 的 best practice,Amazon 的 best practice 或怎么样 , 然后配合你的 agent, 给到 agent 更多你的 context, 还有就是你的一些偏好 。

就其实每个人写出来代码很多时候跟他性格都挺像的 。 而且还有就是我现在特别讨厌一个人说一句话啊这个东西是 agent 做的 , 所以你不要怪我 。

就这个东西它只要是拿你的账号来提交出来的东西 , 它用的应该就是你的 credits, 它背后表达的是你的责任心 , 还有你对待这个世界的态度 。

所以我觉得就是首先我们需要 take it seriously, 还有以及把这个东西当成一个工程学去持续的去迭代 , 这个东西才变好 。

我觉得都会有一个阶段吧 , 就比如说我们当年很多时候都觉得有电了之后什么事情都能解决 , 然后发现其实它中间还是经历很多的过程 。

所以我觉得还是我们的 mindset, 还有我们要有更多的耐心 ,以及要把这个东西变成一个就是说新的一个工具来看待 ,而不是说一个魔法棒来看待 。

就从这个 mindset 上的转变才能慢慢的去根治一些问题 。 谢谢 。

Koji 杨远骋24:40

嗯还有一个问题 。 嗯嗯 。 哎我也好奇啊 , 就是在 MiniMax 内部你们现在怎么看 AI Coding?

何涛24:50

阿斗阿斗哈哈哈阿斗阿斗被 cue 到了 。

虞扬24:55

类就是散户会报一个很高的价位的散户 , 所以包括我最近去阿里分享了一个方法 ,因为他们是有回归大师 , 可以去几百个微幅 , 可以去交个帖子 。他们的感受就是呃他们把几十个仓库放在一起 , 对吧 , 一个月之前可能一个人只能改一个仓库 , 然后现在是一个人拉一下十几个仓库 , 提了一个巨大的代码 , 然后结果就是说看起来好像对 ,但没有人敢相信 。

哈哈哈这种 QA 也受不动 , 功能的实现是快了很多啊 ,但是实际上它验证是没有跟上的 , 对吧 。 我记得我最早在刚开始带团的那个时候 , 我可能他们提交每一行代码他们都会 review, 就这个项目必须要 follow 我的 base, 就是必须要足够简洁 , 然后结构足够清晰 , 就非常有强迫症 。

我是属于那种看大人能给他能把他的 bug 基本看出来啊 , 否则我就不做这个 code。 然后后来是那肯定看不过来 , 我就会做架构的 review, 对吧 。

呃但今天在 vibe coding 其实我们这种 review 是缺失的 。 嗯就换句话说就是生产的能力在极大提升 , 呃包括我们 Hugging Face 也是奔着生产去的 , 训练也是奔着生产去的 ,但在验证和交付 ,在 review 这方面的 risk harness 还是模型其实做的都是不够 。

所以我的观点和和和他们交流的就是说呃我们应该在验证上面投入 , 甚至和研研发生产接近的这样的能力 , 当上导到一个足够的最大值之后, 否则这个项目就会呃大家其实呃我相信大家应该都有过这样的感受 , 大概在去年的 Claude 4.0, 哦它 4.5 还没出来的时候 , 一个项目大概到几千行代码就崩溃了 。

嗯去 vibe coding, 那今天呢可以达到呃几十几万行 , 对吧 。 嗯大概终究会崩溃 。 嗯因为因为我觉得它还是缺少就是就或者这么说它的 context 是有限的 。

另一方面就是我觉得这种这种人类的直觉还是伤害有点难起来 。 对对啊这是我的一个观点吧 , 就我们我们确实是在用 vibe coding 来开发 , 呃比如说我们的那个训练 posit training 那个系统 , 呃就有点像 Multica, 就从从起一个 issue 上去 , 然后这 issue 会一个阶段一个阶段一个阶段的走 , 然后这个轮这个给搞晕 , 然后他们也会遇到类似的问题啊 , 然后我们也在用相似方式去解

, 这解的方法有很多啊 , 就是说你有呃测试上的 ETC, 你有 benchmark, 你有很多东西可以去验证 ,但还有很多样 , 就刚才和 Rosalau 就说你要为这个项目项目去建立它的 principles, 什么东西是做 , 什么东西是不做的 , 什么东西是违反这个 rule 的啊 , 然后这点还要让 agent 能够去实现 ,因为人就能看过来 。

数据转型27:37

Koji 杨远骋27:37

谢谢 。其实刚才这个 IO 在分享的时候 ,其实有提到关于数据的一个问题 , 我们都知道 MiniMax 之前上个月吧做了那个时差的项目 , 刚才 IO 分享的时候有提到说哎去年的这个时候 , 可能我们对数据的理解就是数据标注 , 然后现在是希望找专家大哥来带路 , 可不可以分享一下中间的转变啊 , 它是怎么发生的 ?

何涛28:02

对其实我觉得这个事这样 , 这个事它的实质上是说呃一个比较根源的东西是说我们在想 ,其实就刚才说的就是就是 AI 的核心其实是生产力 , 然后生产力这个事呢就是模型在里面的作用还是本质上就是提供工具嘛 , 就跟比如发明汽车是一样 , 它可能就是让赶路的时间变得更快了 ,AI 的话就让大家思考的过程跟做验证的过程变得更快了

, 它的实质还是那个行业里面本身的真实的问题 。 然后这个事情的话很显然是说光靠模型或者光靠 researcher 其实是做不到的 。其实这个事实际上我们在做 coding 的时候就已经遇到了 , 比如我们去年在做 coding 的时候发现是说 , 比如说对 coding 的理解 , 比如说开发工程师显然是比算法同学更理解什么叫好的 coding。

对然后呢所以说在那个时候我们就开始意识到是说这个呃比如说决定 coding 好坏的东西 , 它实际上是呃算法同学来做出来这样一个模型迭代的框架 ,但是它的这个就是这个就是它的如何来做评测 , 如何来做归类 , 然后呢这个是包括如何来构造这些相当于的环境 , 这些事情其实真正的软件工程师其实是实际上是能做得更好的 。

因为这个事在我们内部其实也已经发生了 , 只是说呢就是像之前的话在做 coding 的时候只需要两个角色 , 就是 researcher 跟 engineer, 然后并且 engineer 在里面其实决定了最关键的这个评测跟 task 的 。

然后在做更多的领域里面呢其实就发现就需要三个角色 , 就需要呃算法开发的工程师 ,以及还需要那个真正的专家 , 它其实是变成了多一个角色 。

那既然我们把两个角色合作给走通了 , 那我们现在就在里面再加一个角色 , 然后其实逻辑就是这样的 。

然后呢并且呢是说这这这是第一个初衷 , 这是就是从我们自己的推演 , 然后其实还有从第二个就是说 , 比如说我们很仔细的研究了一下, 比如说 Anthropic 他们是怎么来招人的 ,其实你可以发现是说他们公司有大量的非 researcher 跟 engineer 的人 ,他们公司有很多经济学家 , 然后呢心理学家 ,他们甚至还有还有核物理学家 , 还有哲学家 。

对他们为什么需要有核物理学家呢 ,因为他们每次做对齐的时候都会来测试说越狱的时候会测这个东西能不能用 ,不用来制作核武器 。

Koji 杨远骋30:19

哈哈哈现在有哪些这个类似的这样的特殊专家角色了吗 ?

何涛30:25

坦白说在半年前我们是不意识到为什么需要有这么多这些人的 , 我们现在其实对这事的理解其实已经非常深 , 我们真的是需要这些人跟我们在就是在一起 。

然后呢就是说我们那个天下项目其实也是有很多呃非常好的同学在跟我们沟通啊 ,其实也吸引到了一些包括在座的一些人。

我觉得我们接下来在几个领域里面吧 ,其实都会有些这样的人, 啊包括在网络安全里面 , 包括在金融里面 , 法律啊什么之类的 , 就是我觉得我们在这块接下来的这个呃做的深度应该会比现在会深很多 。

Koji 杨远骋30:57

最后一个问题啊 ,其实我最想问的呢就是每个人推荐一个个股 , 我知道这个问题很可能得不到答案 , 所以一个替代的问题呢就是说这个 2026 年啊还剩半年, 有什么事情是你们认为在接下来半年你们自己最想 all in 的 , 可以回答这个问题 ,也可以回答推荐个股的问题 , 看谁先来分享 。

未来押注31:19

虞扬31:19

那咱就不推荐个股了 。 哈哈哈啊其实我我想说的是两件事情 , 现在我们 AI 和大模型在我们应用场景当中, 什么东西是以前东西可能替代不了的 , 我觉得有一点是什么是陪伴 , 绝大多数人或者说他们都有陪伴需求 , 包括像我们自己的这个领域上也是 ,有一定有赚了钱的时候 , 你就一定有亏钱的钱的时候 ,而且很有可能对于很多人来说 ,他

们亏钱的时候可能就更加多一点 。 哈哈哈所以说我觉得这是一个是陪伴 , 第二个就是呃我们现在自己在做金融的一个场景上来说 , 最初期我们做 agent 的时候是我们限制模型发挥 , 我们要不让它去做很多奇怪的事情 , 那等到 agent 进步了以后, 最近的事情就是我们要去引领模型 , 能够让它去思考 , 能够让它去做一些创造性的事情 , 然后帮我们做完

很多东西 , 这是我觉得是今年可能两个比较大的目标 。

何涛32:09

刚刚严总跟阿斗其实都透露很多 , 所以推荐的个股我觉得大家应该都都懂了 , 所以我就不说了 。

对对对然后我就讲一下 ,其实我个人平常会写一个专栏叫做 How AI Shapes Our Society, 就 AI 怎么改变我们的社会 。

我其实有一个非常直观的感觉 , 就是 AI 其实在让很多人变得内耗 , 变得焦虑 ,因为我有一个切实的体会 , 就是国内的模型在呃 somehow 可能在 26 年之后跨过了某一个基点 , 它其实已经具备了走进千家万户的机会 , 就不管是 MiniMax 的 MJ 模型还是国产之光的 DeepSeek, 哦这里还是说一下啊 。

哈哈哈对对对那个其实都已经跨过了某一个基点 ,但是 MiniMax 模型这次在多模态上 ,其实它相当于就有了眼睛 ,也可以做更多的事情 。

我可以分享一个我个人的案例啊 , 就是呃我老婆有段时间很焦虑 , 她掉头发 , 所以她总去看中医 , 然后她去问了国内 DAU 最大的某 Chadbot 的呃产品 ,不举他的名字 , 然后他就跟他说了好多 , 说了之后呢 , 然后他觉得缓解了焦虑 , 觉得那个方法让他头发掉的更多了 , 然后他就变得更焦虑了 , 然后他就开始跟我说你们这个行业害人害己 , 最后还

害到你老婆身上 。 我就觉得我得给他吃点好的 , 我就给他建了一个属于他的 LM 的 wiki 啊 , 这个可能术语有点专业 , 就是一个属于他个人的一个 wiki, 然后我把我用 Codex 把他所有的体检报告单据做的检查 , 吃过的所有的药 , 甚至包括那个 Chadbot 和他聊的聊天记录 , 我全都导进去了 , 然后我就把 Codex 接到了他的飞书里边 , 我让他去用 , 我就跟他说以后你不要用那

个 Chadbot, 你就用我给你做这个 , 相信你老公 。 我就说你可以问他怎么样下一次去看医生的时候 , 我可以问什么问题 , 甚至医生问题你录下来就问他 , 然后让他直接反问医生 ,他就按照我这个去做 , 后来发现他跟医生的沟通也更顺畅 , 所以我就感觉到就是说其实我们普通人, 每个人都是有机会能够用 AI 让家人, 让身边人, 让更多的东西变

得更好 , 只要我们愿意 。 我觉得这也是我们用 vibe coding 不是用来去替代人, 或者说去替代一些工种让人失业 ,而是更多让大家很好的 idea 跟想法能够绽放出来 ,而且让身边原来觉得离这个很远的人能感到一种温暖吧 。其实我觉得这其实就是从冰冷的软件工程里面 , 然后最后能发现出来 , 就是一种人类社会的温暖 。

我觉得最后是要回归到这个 。

Koji 杨远骋34:45

谢谢 。

虞扬34:47

那我觉得和大家分享的那个就非非常好 , 包括说首先我我其实跟阿斗一样 , 我我也不投资 , 对我我只投资我自己和我自己的公司 , 所以所以说个股的建议我也给不出来 。

嗯然后这下半年要 all in 的点 , 呃我我不能说是要 all in 吧 ,但但是可以说是我我想要去探索的几个事情 。其实我是一个 AI 降临派 , 我是认定这个 AI 的能力发展到后面一定会比人人来的强的 ,而且这个这个是在是在我过去几年的这个比较深度的去和 AI 的这个协作过程中, 越来越发现你未来已经不是在和人去竞争 ,而是在和 agent 去竞争 , 或者是在和 AI 去

竞争 , 你的智能其实是没有办法去和 AI 去做一个抗智能 。在这样的一个情况下, 呃就像刚刚提到的 , 这个社会该是一个什么什么样的 , 我觉得这个可能是一个值得我们去思考的一个点 ,因为人都是有惰性思维的 ,有了 AI 之后, 大家都喜欢把事情都交给 AI 来去做 , 把自己的思考外包给 AI。

我现在一个做法是我可能会去和 AI 去呃去去做一个这个探索 ,但是我会把思考这个最重要的部分都交给我自己 。

Koji 杨远骋35:59

好谢谢 , 那 IO 来压轴 , 所以你是降临派吗 ?

何涛36:05

我我觉得这样的 , 然后我觉得首先现在的 AI 其实是一个本质上它是一个黑盒子 , 即使我们自己作为从业者 , 我们也不知道它一年之后会怎么样 , 就只是知道它会进步 ,并且我们也坦白说其实也不太理解 , 就是比如说为什么会有 skin law, 为什么会有各种各样的东西 , 坦白说我我我认为单纯靠人类已经很难理解这件事了 ,因为现在的数据工

具其实也是不太够的 。 呃因为其实其实我很早之前大概在十年前 , 十年前我在读博士的时候就看过一篇论文 , 大意思就是一个超过三层的神经网络 , 用现在的数据工具其实又也没法分析它的收敛性 ,但是这个行业还在进步 。

哈哈哈对 , 然后呢就是说呃我觉得就是说随着 AI 越来越强 , 我觉得我特别关心的一件事是 ,也不是这个可能不是 all in 啊 , 就是我自己特别关心的一件事是说 , 就是什么时候是不是能够 AI 能够帮助人家理解 AI, 我觉得这是一个非常本质的事 ,因为只有这样的话 , 各种比如说对比如说 AI 会不会它的安全的问题 , 比如说 AI 到底能够走多久 , 这个

事我觉得可能才会有一个答案 。

Koji 杨远骋37:08

现在有看到什么信号吗 ?

何涛37:09

呃其实这样的 , 就比如说呃我其实看过很多这个这个生命科学的论文 , 就现在的话其实大家越来越发现是这样 , 比如说就是大脑跟这个神经网络之间其实有很强的相关性的 , 就真的是这样 , 就是说比如说就是大脑里面显然是大脑肯定不会算组建成对吧 ,但是大脑里面其实是有一些模块其实是类似会有这种 , 比如说呃会有类似

这种矩阵的这样的 , 这样的这样的一些概念 ,并且大脑里面有些机制其实是几乎可以等价成一个呃呃梯度的这个反应韩国 , 然后呢并且大脑里面其实它的这个有点像那个呃 transformer, 比如说海马体 , 海马体的话其实会有些记忆 ,其实它跟那个跟那个 DeepSeek 那个上次他们那个那个那个记的那个东西其实是很像的 。

我觉得就是说这个就是比如说在一年前我们不太理解 , 比如说安全这个非常非常重要 , 现在的话我觉得我们可能就是不太理解 , 就是为什么可解释性是一个很重要的事 ,但是我觉得现在其实越来越知道它们重要性了 。

我觉得并且我觉得这个事 AI 在明天是能发挥哪做的 , 就是 AI 本身的可解释性也得需要靠 AI 一起帮助人来解决 。

Koji 杨远骋38:20

好 OK 好 , 那我们今天谢谢大家的时间 , 谢谢 。