十字十字路口Crossing2026年4月28日· 1:17:02

当我们在讨论 Harness 的时候,我们在讨论什么 | 深度对谈: Minimax × Hermes Agent

本期十字路口邀请MiniMax的Agent架构师阿岛和工程师择因,以及Hermes Agent负责人Tommy Eastman,深度探讨OpenClaw与Hermes Agent热潮背后的技术逻辑。他们拆解Agent Harness概念,认为它是让模型能力最大化的“挽具”;解释为什么需要多Agent协作——单个Agent上下文超50%后智能会指数下降;并指出自我进化的本质是让AI代替人类成为效率瓶颈的解决方案。同时,他们讨论蒸馏名人技能的价值、模型公司做Agent的必然性,以及Agent Infra层创业机会有限但垂直领域仍有空间。

  1. 0:00开场
  2. 5:55Hermes Agent
  3. 14:18Harness定义
  4. 19:31多Agent协作
  5. 22:53自我进化
  6. 29:00蒸馏技能
  7. 35:17Yoyo实验
  8. 36:37竞合与模型
  9. 54:25Agent创业
  10. 1:08:10未来展望

转录文稿

开场0:00

Koji 杨远骋0:00

嗨 , 我是 Koji, 本周的十字路口呢是我最近在 B 站做的一场直播的精华内容剪辑 。 我们邀请了 MiniMax Agent 的首席架构师阿岛 , 和研发工程师择因 ,以及最近在 OpenClaw 之后全球刷屏的 Arms Agent,也就是爱马仕 Agent 的业务负责人 Tommy Eastman。

那这也是 Arms Agent 在全球获得广泛的关注之后, 官方首次现身中国的社交媒体平台 ,并且他们还正面回应了一个中国开源团队 EvoMap 对他们抄袭的一个指控 。

那我们直播聊了两个多小时啊 , 围绕着 Agent 和 Agent Harness 聊到了非常多我觉得很有意思的话题 。 那在今天的播客里面呢 , 为了保证收听的流畅 , 我把直播里面所有讲英语的部分都用 AI 直接转成了讲中文 ,而且我特意选了几个有翻译腔的中文的声音 ,以此方便大家来区分有哪些是 AI 翻译给大家听的 , 又有哪些是我们活人讲出来的中文 。OK, 那我

们开始吧 。

阿岛1:05

大家好 , 我是阿岛 。 我负责 MiniMax 的研发团队 , 然后加入 MiniMax 已经快 3 年了 , 然后之前也有比较多的互联网的创业和工作的经历 , 然后比较深度地参与了 MiniMax、MR 系列模型 ,以及 Agents 包括海螺等等的研发吧 。

然后很高兴今天能在这里和大家交流 。 然后我们在线上也请到了我和我们 MiniMax 有深度合作的 Hermes Agent 的产品和策略的负责人, 这应该是 Hermes Agent 最近这一个月最火的这样一个 Agent 在中国和大家的首次沟通 。

择因1:36

大家好 , 我是择因 , 我是 MiniMax 的 Agent 研发工程师 。 像我们 MiniMax 官网的 Agent,以及 MaxClaw,以及最近刚上线的 Max Hermes 的开发 。

Tommy Eastman1:46

大家好 , 我是 Tommy Eastman,是 Hermes Agent 的业务负责人, 很高兴和大家交流 。

Koji 杨远骋1:52

我们今天的直播呢是因为春节之后有一个全民养虾的热潮 ,也就是 OpenClaw 的热度 。 但是好像现在这个养虾的热度一夜之间它好像就下去了 , 所以想先请你们来复盘一下这个过程 。

阿岛2:07

我觉得中国的农历春节每年都非常的非常有意思 。 去年火的是 DeepSeek, 然后春节之后让大家对 AI 有了一个完全全新认识 , 之前可能会觉得离我们还很远 。

我觉得今年也是一样的 。其实 OpenClaw 呢它火起来也比较凑巧 ,在和硅谷的时间大概是从 1 月份开始 。 我记得是在我们 IPO 上市的当天 , 我们和 Peter 就有一个这样的一个联系 ,因为那天也很巧啊 , 就 Anthropic 它是封禁了这个 OpenClaw 的这个订阅的使用 。

所以 Peter 他也非常希望能找到一个这样的一个非常适合龙虾的一个模型 ,因为大家知道龙虾是非常的消耗 Token 的 。

对 , 然后我们其实当时也没有意识到这个项目会那么火 , 然后接下来它在海外就开始火起来 , 然后 MiniMax 开始受青 , 然后我们也没有想到它在国内会这么火 。

Koji 杨远骋2:57

是的 ,OpenClaw 在中国的火的程度我感觉比硅谷还要更深一筹 , 下沉到了非常大众的人群 。 你们认为是什么原因呢 ?

阿岛3:05

我自己的个人感受是 , 就是在春节期间以及春节之后, 就好像身边所有人都开始在讨论龙虾 , 甚至我们看到各地都开始出现这种就是身上头戴这个虾帽的这样的一个热潮 , 还有腾讯有这样的线下的装机的活动 。

对 , 我自己觉得它大概会有几层的原因吧 。 第一层的原因我觉得其实我们自己的感受是在国内它其实比海外可能要更火一些 ,因为其实在国外的话 , 大家其实已经在之前就接触到 , 比如像 Claude Code, 包括像 Cowork 这样一些已经比较好用的这样的一些 Agent,但在国内之前可能大家还没有接触到比较好用的 Agent。

那这里面我觉得还有一个更底层的原因 ,是因为国内的模型可能在更前一个阶段 , 它其实没有那么强的这样的一个 agentic 的这样的一个能力 。

随着包括像 MiniMax M2.5、M2.7 这样的模型的发布 ,其实国内的模型也具备了这样的一些能力 。 所以有了国内的模型 ,以及有了一个像 OpenClaw 这样能够让大家通过 IAM 就非常容易接入的方式 , 它实际上让中国的用户完成了一个接近于从 0 到 1 的这样的一个体验 , 被捅破了那层窗户纸 。

另一个原因我觉得也是 , 字节这次拿下春晚 , 对豆包的一个全面的 all in 的这样的一个投入 。 所以我觉得是这两件事它叠加在一起 , 让所有人对 AI 的认知就真正进入 Agent 时代 。

Koji 杨远骋4:26

那你们认为是出于什么原因 , 好像一下子大家就从养虾去到了驯马 , 对吧 ? 就是这个关注度从 OpenClaw 到了 Arms Agent, 这中间有没有发生一些什么样的拐点事件 ?

择因4:39

从 OpenClaw 爆火到逐渐平稳 , 到最后最近的 Hermes,也就是那个我们的 Max Hermes 的火起来吧 , 大概是花了一个月 。在这一个月之内的话 , 大家基本上都已经体验过了一下 OpenClaw,但它确实会有些不稳定的特点 。

它每天 4 点钟它会刷新一次记忆 , 然后这时候你可能比较好的和它交流过以后, 过了一天它就会说 :" 哎 , 我们昨天聊了什么我忘记掉了 " 等等。

那其实 Hermes 就是抓住了这些痛点 , 它在记忆方面做的特别的用功 ,而且它做的非常有多层次的记忆吧 。

从这个角度来讲的话 , 它确实去在一定程度上去弥补了 OpenClaw 的不足 , 所以说它是有一定火起来的一些技术上的基础的 。

对 , 然后与此同时的话 , 确实大家在使用龙虾的过程中, 已经享受到了一定程度上由 AI 带来的提效的快乐 , 所以这应该是一个双向奔赴 。

Koji 杨远骋5:30

OK, 我们接下来的内容呢 ,在直播的时候就是英文的了 , 所以为了方便大家更流畅的收听 , 我们在播客的语音当中使用 AI 转成了中文的版本 。

阿岛5:40

接下来我想请 Tommy 给大家介绍 Hermes Agent 究竟是什么 , 所谓的自我进化是什么意思 ,以及它和 OpenClaw 有什么区别 。

这些是全中国的开发者和用户都非常关心的问题 。

Hermes Agent5:55

Tommy Eastman5:55

谢谢你们邀请我 , 很高兴来到这里 。 简而言之 ,Hermes Agent 是一个开源的智能体框架 。 如果把大语言模型比作大脑 , 那么智能体框架就是双手 。

它是一个系统 , 模型通过它在真实世界中执行任务 , 它处理所有复杂的协调工作 , 比如工具编排 、 主循环管理 ,以及状态管理和错误处理 。

最终它能让模型为用户发挥出最大的效用 。 至于 Hermes Agent 的不同之处 ,有几个关键点 。 首先 , 它运行得非常好 。

通过我们的 Nose 平台 API, 你可以在不到 2 分钟的时间内轻松完成从安装到执行首次智能体任务的全过程 。

这种便捷的设置是一个巨大的优势 , 为用户消除了最初的挫败感 。其次是它的记忆组件 , 这是大家真正喜欢的部分 , 可能也是最有趣的一点 。

任何一个深度使用过 Agent 的人都有过那种令人沮丧的经历 。 你让它做一件事 , 它这次做对了 ,但下次再做同样的事 , 它却失败了 。

这让你很难去信任它 。Hermes Agent 的记忆功能解决了这个问题 。 它允许 Agent 记住一个成功的工作流 ,并将其保存为一项技能 。

一旦它知道了正确的路径 , 就能每一次都完美地复现 。 这让它变得远比过去更易用 、 更值得信赖 。

这也解答了你关于自我进化的问题 。 这个 Agent 会不断自我提升 ,在这个过程中发生的知识压缩非常有价值 , 它能带来更高的一致性 , 尤其是在跨越不同模型时 。

所以即便你有 8 个不同的模型 , 只要使用相同的框架和技能 , 你就能从所有模型中获得相同的预期输出 。

这让你能够针对不同任务灵活地更换模型 , 同时确保你的核心工作流依然保持高性能和高可靠性 。

择因7:56

谢谢你 ,Tommy。在深入探讨之前 , 你能介绍一下你的公司 Nous Research 吗 ? 团队是如何组建的 , 背后的愿景是什么 ?

特别是 Hermes Agent, 感觉就像横空出世 , 迅速登上了 GitHub 的热门搒单 。 这背后有什么不为人知的故事吗 ?

Tommy Eastman8:14

Nose Research 的起源故事非常独特 。 它以一种非常自然的方式开始的 。2022 年, 一群热衷于开源和折腾 AI 模型的人, 开始聚集在一个名为 Nose Research 的 Discord 频道里 。

那里至今仍是我们的核心社区 。 从那时起 , 我们产出了大量高质量的研究 。 最初的努力是围绕 LLAMA 模型的后训练 。

当时 Meta 刚刚发布它 ,是少数愿意开源高质量模型的公司 。 这其实就是 Hermes 这个名字的由来 。 我们首批经过后训练的 LLAMA 模型版本就叫 Hermes。

那些早期模型的重点是让它听起来更像人类 ,而不是刻板的 AI 助手 。在文本上更具柔韧性和多样性 。在当时许多领域都是最先进的 。在训练 Hermes 模型的同时, 我们开发了 YARN 算法 , 将模型的上下文长度从 4000 扩展到了 12800。

我们发表了这项研究 ,并立即被所有主流模型公司采用 。 这是我们现在所说的思考模型的雏形 , 反过来为智能体模型奠定了基础 。

我们还花了很多时间研究分布式训练 ,并撰写了 Distro 论文 。 这是一种新颖的优化器 , 允许我们跨越非共制的 GPU 进行训练 。

这意味着我们可以聚合分散的算力来完成有意义的训练 。 这对我们持续训练开源模型至关重要 。 当然 , 幸运的是 , 我们还有像 MiniMax 这样的公司在继续扛起开源的大旗 。

至于 Hermes Agent, 它也有一个有趣的起源故事 , 我称之为极其注重实用主义的诞生 。 我们的后训练负责人兼联合创始人 Tagnium 只是想要一个助手来帮他管理日常工作 。

于是他纯粹为了自己构建了这个 Agent 作为工具 。 当时根本没考虑什么基准测试或评估 ,他只想要一个能帮到他的东西 。

我认为这恰恰是 Hermes Agent 的核心魅力所在 ,也是它成功的一个关键原因 。

择因10:28

那是什么时候的事 ? 大概一年前吗 ?

Tommy Eastman10:32

是的 ,他大约一年前开始做的 。 最初真的只是为了帮助自己 ,但作为一个开源实验室 , 我们很自然地把它开源了 。

它获得的关注远远超出了我们的预期 。 我相信你们都看到了 OpenRouter 的图表 , 它的日均 Token 消耗量在短短一个多月内从 20 亿激增到了 200 亿 。

我记得昨天的数据几乎达到了每天 3000 亿 。

择因11:00

那你是什么时候感受到这股热潮的 ? 有没有一个引爆点 , 让你觉得 :" 好了 ,Hermes Agent 成为全球大爆款了 "?

Tommy Eastman11:09

它确实在以极快的速度变得非常庞大 。 我对这个增长率感到非常高兴 , 尤其是因为我们原本对它的反响并没有报极高的期望 。

显然 OpenClaw 此前非常受欢迎 ,但我认为 Hermes 的一个巨大卖点是用户能非常快速 、 轻松地启动和使用它 。 人们不想处理臃肿的代码 ,也不想面对一大堆复杂的设置 。Hermes Agent 是开箱即用的 , 你可以在自己的电脑或 VPS 上迅速部署并运行起来 。

这让它非常适合大规模普及 。

择因11:48

那你认为你们的成功和 OpenClaw 有很强的关联吗 ? 你们之间有什么联系 ?

Tommy Eastman11:55

当然有联系 。 我认为是多种因素的汇集促成了 Agent 的这次爆发 。 首先 , 模型终于变得足够好 , 能够真正帮助到人们 。

这显然是由今年冬天 Opus 带来的巨大提升所引爆的 。 它在质量上实现了阶跃式的进步 , 为这些 Agent 的框架打开了大门 , 让它们能做更多有价值的事 。

很酷的是 , 开源社区很快也产出了性能相当或正在迅速接近 Opus 质量的模型 。 至于 OpenClaw 和 Hermes 的区别 , 我想回到我刚才说的 。

我们通过 Hermes Agent 真正针对可用性和实用目的进行了优化 。 我们将可用性作为北极星指标 , 它在执行用户真正想做的任务时表现如何 ,而不是它在某个基准测试中得分多高 。

我们始终保持着对产品的专注 。在一个开源社区 , 特别是当产品广受欢迎时, 很容易因为成千上万的 PR 和功能请求而导致代码臃肿 。

我认为我们在保护产品 、 保持 Hermes Agent 的极其易用方面做得非常好 。 这一点加上我们前面提到的记忆系统 ,是两个关键的差异化因素 。

记忆功能真正建立了用户的信任 。 我认为第三大差异点是我们的品牌 。Nose Research 一直在努力营造一种赛博朋克的美学 。

我们有才华横溢的设计师 ,也花了很多时间培养一个聪明 、 价值观一致的社区 。他们热爱尝试我们发布的一切 。Hermes Agent 的成功很大程度上要归功于我们的社区 。

择因13:44

另一个很酷的故事是你们和 MiniMax 团队的关系 。Tommy 能讲讲你们是如何合作的吗 ?

Tommy Eastman13:51

我们是 MiniMax 团队和他们模型的铁杆粉丝 。他们对模型质量的承诺 , 特别是跨多种模态的表现 , 令人印象深刻 。

正是他们对开源的坚持 , 才让像 Hermes Agent 这样的产品变得如此酷 。 你可以拥有各种模型来回切换 , 定制你的 Agent。

我们看到我们的用户非常喜欢 MiniMax 的模型 。

Harness定义14:18

Koji 杨远骋14:19

好 , 那我们回到我们的这个中文世界 。 我们来继续我们的这个直播的内容 。 首先想请问一下这个二位 , 再给我们介绍一下 。

我们今天一直在说这个 Harnes、Harness, 对吧 ? 那当我们说到 Harnes 的时候 , 我们到底在说什么 ?

择因14:33

在我看来的话 , 它其实就是一个你去约束 Agent,但是又给它一定自由 , 就能够完整地交付给你一些成果 。

最早提出来的时候 , 就可以关注 OpenAI 他们官网的一篇文章 。在那里的话 , 它正式宣布了有 Harnes 这样一种 Agent 的应用方式吧 。

然后从偏技术的角度来讲的话 , 它可能分为 6 层 ,但是我们可以先不聊得那么技术一点 。 你就假设一下, 你有一个同事 , 然后他呢 , 全都听你的 ,但是你得和他先约定好 ,他能干什么 , 你能干什么 , 对吧 ?

他有些事情不能帮你做 ,但是有些事情的话 , 你就完全可以放任他去做 , 对吧 ? 当你约定好这些 ,并且给他配置好一些 , 比如说他的模型是什么 ,他有什么工具等等 , 给他一定的能力 , 就像是你给一个同事给他一台笔记本 , 然后又给他一个电话 ,他能打电话 , 给他邮箱账号 ,他能发邮箱一样 。

给他一定能力之后的话 ,他就可以开始干活了 。 当然在这里 , 一个同事干活你肯定不放心 , 就像是一个 Agent 干活你不放心一样 。

这时候你可以去引入多位同事 ,他们能够形成一个互相监督 ,并且完成任务 ,并最终交付的这样一整套过程 。

但是我可能现在说的比较像工作生产中的场景啊 , 就是以人的方式去形容这个 Agent。 但是落到技术上来说 ,其实你就是需要去给予 Agent 大量的工具 、 环境和自由度 ,并且要给予他们约束 ,以及要给他们一些互相对抗性的目标 。

比如说某个 Agent, 它的作用就是去产出某个内容 ,但另一个 Agent 如果它想把工作停下来 , 那么你就得去审查出这个工作内容中的问题等等。

通过这种多个 Agent 的组合 , 就像是我们同事之间互相合作的这种方式 , 让他们能够产出一个单个 Agent 完全无法产出的一个更加高质量的结果 ,并且你其实在此期间完全不需要去做更多的介入吧 。

这其实就是一个 Harnes 这样一个概念 。 当然这个概念我觉得它在这个时机能够出现 ,其实也是有一定的物理条件的 。

首先我们的模型都变得更加聪明了 , 大家的那个模型都有一定的 agentic 能力了 ,并且在此基础之上的话 , 大家也愿意地去把更多的能力 , 包括像是操作邮箱或者是操作你的服务的发布等等 , 给它分享了 。

然后 Harnes 就自然而然地诞生了 。

Tommy Eastman16:47

我可以补充一个视角 。

Koji 杨远骋16:48

好的 。

Tommy Eastman16:49

就其实我觉得 Harnes 这个词是 OpenAI 可能通过那篇文章它来去定义出来 ,但在那段时间其实它已经很火了 。

但我觉得这层窗户纸 , 它可能是通过那篇文章来去捅破的 。

Koji 杨远骋17:00

就大家形成了一个共识 , 我们用什么词来形容我们在做的一切 。

Tommy Eastman17:04

对 , 实际上大家的实践已经在那之前了 。 比如说大概在去年九十月份的时候 , 包括我们在内部讨论的时候 , 我自己的工作流中, 我实际上已经不怎么用 IDE, 然后我可能同时并发五六个 Agent, 甚至这只在我本地 , 可能在云端有十个 Agent 在 Sandbox 上在为我工作 , 然后他们都是在 GitHub 上尝试我不同的分支和想法 。

那这时候我会发现我成为一个极大的瓶颈 。

Koji 杨远骋17:30

自己人类成了瓶颈 。

Tommy Eastman17:31

Yes, 就是人类成了瓶颈 。其实那时候已经不是 Agent 成为瓶颈了 ,因为我需要不断地在这些上下文中切换 , 然后给他们输入 。

所以这时候我们想的一个东西就是说 , 怎么样让它能自己更自动化 。 因为人类 , 包括你看那个 OpenAI,他们的那个 Harnes 那篇文章作者最近到播客里面来分享 ,他们也说到他们的感受也是很类似 。

所以我觉得这些东西都是非常的相通的 , 就大家都在那个时刻感觉到了这一点 。 所以我们在想的就是说 ,OK, 怎么样解决这个瓶颈 , 对吧 ?

因为我们做技术的人, 总想去做优化 。 那解决这个瓶颈最重要的办法就是说 , 让那些原来需要人来去确认的事情 , 比如说它要去获得这个程序到底能不能部署在生产环境上运行 , 到底它的结果是否正确 , 然后它比如说它去真实地去做测试 , 比如说它能够去开 API test, 本质上就是说它能够获得真实的反馈 , 然后并且通过这个反馈的这个链

路 , 它能够越来越知道在它这个过程中怎么做 。 它可能是沉淀为 Skill, 可能是沉淀为一个 CLI, 可能是沉淀为一个 Hooks。

我不知道大家看过有没有我那个年代的东西 , 叫高达 Wo, 然后它的特点就是说它的那个 engine 引擎非常的强大 。

我们其实需要去造一个高达那样的机甲 , 然后怎么让这个引擎的能力最大地发挥出来 。 所以我认为 Harnes 就是那样一个东西 。

所以他们为什么把它叫挽具 , 就是你有一匹很厉害的烈马 ,但怎么样让它最能够发挥出来 , 就是你构造挽具 。

对 , 对的那样的一个过程 。

Koji 杨远骋18:59

很有意思 。 我们刚才也提到这个 Multi-Agent 就是多个 Agent 协作的这个事情 , 要不要给大家再多讲一讲这个多 Agent 协作的这个概念 ?

就是因为我理解这里面其实有一些争议 , 就有人会认为 , 比如说今天模型的智能是非常高的 , 对吧 ?

那其实一个单一模型是可以完成非常多工作的 。 那你为什么非得要去搞一个 Agent team 出来 ? 你说它是产品经理 , 它是工程师 , 这好像反而是限制了模型的发挥 。

但是也有另外一些人是不这么看的 。 你们怎么看 ? 就我们说到 Multi-Agent 的时候 , 目前的最佳实践是什么 ?

多Agent协作19:31

择因19:32

了解 。 然后先回答 Koji 老师的第一个问题吧 , 就是为什么要有 Multi-Agent? 确实有一些过去的论文里面提到过 , 可能是单个 Agent 它的效果可能会更加好 ,但实际上随着我们模型的上下文空间 ,也就是它能够对话的轮次的长度的增加 , 你会发现你和模型对话的过程中 ,其实你产出的信息量是较少的 ,而模型产出的信息量是较多的 。

那我们可以做一个思想实验 , 假设有两个模型 , 它们之间能够以更加高效的秒回的效率去交换信息 ,并且一般模型给你发的消息是一个小作文 , 对吧 ?

那么我给模型亏的可能就两个字 , 批准 , 接着干 , 加油 , 人呢 , 对吧 ? 但是呢 , 如果让两个模型它们之间互相交流 , 它们的信息量是极大的 , 对吧 ?

那在这种极高密度的信息的交换的情况下, 对吧 , 它整体的这个效率就会比人和一个 Agent 进行交互要有更高的效率 。

这是在效率方面 , 单个 Agent 它的局限性吧 。 就拿最近一些例子上来说 ,Anthropic 在今天的那个凌晨吧 , 它发布了 Opus 4.7 这款模型 。在模型里其实它有什么卖点呢 ?

其实真要说的话 , 大家网上已经在吐槽了 , 那我也不去吐槽它了 , 对吧 ? 我们只是去揣测它这个公司 , 它为什么要在某些方面宣发 。

我说几个点啊 , 比如说它增加一个叫 Xhi 的一个 effort, 它的意思就是说推荐用户在这个思考成本之下, 思考成本就是指模型得思考得多仔细才能回答你的问题 。

一般模型发布应该是个很震撼的事情 ,但它就是说 , 我们推荐用户去使用这样子一种思考成本去进行使用 。

那其实带来的另一个问题是 , 如果你的对话就单个 Agent 之间 , 你一直使用它 , 即使是最强的模型 , 你一直使用它的时候 , 它也会产生降智的行为 。

而且这已经是一个可以被论证的事情 , 就是当你的上下文空间 ,也就是你和它对话的那个文本的数量超过了 50% 以后 ,其实它的智能水平的下降是指数级下降的 。

也就是说在单个 Agent 里 , 你永远没办法和它一直聊下去 。 这是单个 Agent 的上限的问题 。

Koji 杨远骋21:33

上下文带来的限制 。

择因21:34

上下文带来的限制 , 对 。 然后以及一个信息传播的效率 , 两个问题吧 。

Tommy Eastman21:40

我来补一个观点啊 。其实最近几天有一篇论文出来 , 说它去研究了非常长程的这些任务 , 那 Agent 或者模型在什么情况下会出错呢 ?

他们发现如果它做对了 , 它那个对的路线一直进行下去 ,但它只要在某一个地方可能偏了 , 很容易它就会越来越偏 。

对 , 那它其实我觉得和人也是类似的 。 有时候我们去做一件事情的时候 ,是有可能钻牛角尖的 , 可能我已经花了很多的努力了 , 可能我一直在那做 , 对吧 ?

然后等到我可能休息一下, 我可能换一换脑子的时候 , 我才想到哦 ,其实不对 , 我应该从另外一个角度去做 。

Koji 杨远骋22:11

很有道理 。

Tommy Eastman22:11

对 , 至少在我们自己的实践中, 我们会让两个 Agent 来去做 cross-check。 我觉得它 somehow 跟真实的世界的数据 , 包括跟后训练都有关系 。

就它的数据分布上来说 , 它看到大部分数据都是按照一个线性轨迹去执行过去的 , 它比较少看到的是说反复地去验证和思考的 。

对 , 当然这个可能在强 L 后会有改善 。 对 ,但是如果你设置两个 Agent 的话 , 那它可以没有之前的薪资负担 , 换一个角度重新相当于你有两倍的这个预算 ,而且是全新的上下文去思考 , 往往能达到一个更高的质量 。

Koji 杨远骋22:45

这也很有意思 。 就好像你在钻牛角尖的时候 , 如果旁边有一个人过来泼一盆冷水 , 对吧 ? 让你清醒一下 。

Tommy Eastman22:51

对 , 或者你去睡一觉 , 去做点别的事情 。 对 。

自我进化22:53

Koji 杨远骋22:54

这也是我们要用 Multi-Agent 的一个这个角度 。 就我自己有一个小问题 , 就是会不会大家都在聊到它的时候 , 都在讲这个就是所谓的自我进化 , 对吧 ?Self-evolution。

但是有趣的是 , 我在想说其实我们今天刷抖音 ,也是越刷算法越准 ,但是我们好像也并没有说什么抖音会自我进化 。

但是今天为什么在这个 Armes Agent 或者在整个这个 Agent 的领域 , 就自我进化就被大家认为是一个那么厉害的词呢 ?

这背后有哪些相同 ,有哪些不同呢 ?

Tommy Eastman23:26

我先说一个观点啊 。其实还是延续我刚才那个观点 , 就是你会发现在这个迭代的过程中, 人开始成为瓶颈 。

而且人的数量越多 , 它的组织效率就是指数级的下降的 。 我经历过非常多的组织都是这样的 。 要做大模型这样的一个 , 可能你一次训练是数以亿计这样的成本 , 甚至数以亿计美元这样的成本的事情的时候 , 你需要保持非常高的人才密度和非常精干的组织才能把这件事情做好 。

那大家想到的一个最有效的就是 , 那怎么 scale up, 就怎么 scale 呢 ? 那最有效的方法就是减少人的参与 , 更多地让 Agent, 让 AI 来去做 。

那其实你就会发现在这个过程中, 实际上大家会发现很多模型它的生命周期可能就是几个月 , 对吧 ?

然后我们就会推出下一版 ,但是没有之前那些模型可以吗 ? 其实是不可以的 ,因为后面的模型都是依靠前面的模型来训练出来的 。

前面的模型都在这些训练过程中, 无论是帮助去清洗预训练的数据 , 去寻找适合的数据 , 去构造数据 , 去构造相应的 L 的环境 。

比如说在我们的 M2.7 的训练中 ,在我们的 RL 的 pipeline 里面 , 它已经是可能 70%~80% 以上的工作已经是由模型加 Agent 自己来去完成了 。

因为人类工程师他只有 7×24 个小时, 对吧 ? 那我们还要休息 , 我们还要做很多别的事情 。

Koji 杨远骋24:48

那现在剩下的 30% 就是还要由人去做的 。

Tommy Eastman24:51

它更多的是说 , 第一 , 人的那个判断和 taste 是非常重要的 。 就是那个判断它不再需要去做说 OK,是我的某个实验中的某一个具体的 specific 的过程出了问题吗 ?

因为这些 Agent 都能帮它查出来 。 它只需要去看到这些汇总的 , 比如说实验的结果 , 然后和它原来预期的方向有哪里不符 , 那 Agent 这时候给出它一些建议 。

那这时候它其实是一个讨论的这样的一个过程 。 然后最后其实是人的品味和创造力来去指引那个方向 , 说我们最终往这个方向去走 。

对 , 所以它确实就像很像 Harnes 那种驾驭的这样的一种感觉 。 总结来说就是第一个 ,在这样的高复杂度 、 高密度的事情上, 如果要想要 scale up, 就必须是 AI 在其中是占据非常大的比 , 人就是只是驾驭 , 否则这个效率就会很低 , 我们就做不出就是最有生产力 、 最好的东西 。

然后自然那就会发生我们刚才说的就是自进化这件事情 。

Koji 杨远骋25:47

明白 。

Tommy Eastman25:47

因为它就是一个自包含的这样的一个关系 。 对 。

Koji 杨远骋25:51

是不是也是因为今天这个 , 比如说 Agent 的能力变强之后, 一个 Agent 可以跑的时间越来越长 , 这也给它的自进化提供了一个基础 ?

因为在过去它跑不了那么久的话 ,也无从谈起自进化 。

Tommy Eastman26:03

对 ,是的 。 就是我觉得除了久以外, 它更重要的是 reliable, 就是它能解决足够复杂的问题 。 对 , 能足够长程 。

择因26:11

但其实还有另一个点在于说人启动的问题 。 当你和一个 Agent 见面第一天的时候 , 它可能完全不了解你 。在这个过程中你们要去互相的交换信息 , 交换文件 , 交换数据 , 甚至于有一些不管是内容上面的 ,不管你输出的很多 , 把一堆文件砸给它也好 ,也要去把你的脾气 、 你的反馈 、 你的习惯等等反馈给它 。

这样子一个深度磨合的过程中呢 ,其实人们就会有这样一个诉求 , 就是说你是否能够自己变得聪明一点 , 变得更加了解我一点 。其实在养虾的过程中就已经有一点这些苗头了 , 就是用户们确实会对虾这样一个 Agent 产生感情 。

可能有一天这个小龙虾出 bug, 它会心里有些小落寞 。 这时候呢 , 就是 Ermis 它提出这种自我进化的概念 ,其实更加引出了一个说 , 我能够在和你的对话中越来越了解你 , 同时的话呢 , 我也能够去给你创造一些小惊喜 。

对 , 就是我不和你对话的时候 , 或者我就是在一些工作的复盘中, 我就能够领悟出一些更加高层次的东西吧 。

我觉得这是普通用户在使用的时候的一个比较大的亮点 。

Koji 杨远骋27:16

对 , 我觉得这个确实很有趣 。 就是我们之前用 AI 工具 ,不管是就是一个 Chatbot 还是一个 Agent 的产品 , 对吧 ?

如果它做不好 , 我们第一反应都是出 bug 了 , 对吧 ? 这个爆 bug。 但是大家养小龙虾的时候 , 它宕机了 , 或者它挂了 , 或者它一个任务完不成 , 我们只会觉得它挺蠢萌的 , 甚至有时候会觉得哎 ,是我好像没把它训好 , 我要去网上学一下别人在怎么训它的虾 。

这是一个很有趣的这个关系的扭转 。 就是你原来好像是一个工具的使用者 , 对吧 ? 人是就是最正确的 。

但现在这个大家不自觉地就把这个关系扭转了 , 好像我变成了一个只是在帮助它的 、 辅佐它的一个人。

它没做好 ,有可能是我没辅佐好 , 或者我没有一开始给它 set up 好 。

Tommy Eastman28:00

我觉得这就是人类对 AI 的信心的改变 。

Koji 杨远骋28:04

在不断增强 。

Tommy Eastman28:04

对 ,是的 。 这其实是那个基点 , 就是 AI 能力的那个基点 。 就当人给它信任发生了变化之后, 会交给它的任务不同 ,而且人类社会以及人类的工作方式会围绕它改变 ,而不是尝试去改变它 。

你看 OpenAI 最近他们的那个 ,也是他们做 Harnes 那个人出来说 , 包括像那个 Anthropic, 像 Boris, 就 Claude Code 之父 ,他们出来说 ,他们觉得不要去觉得模型做不到 ,而是要想模型能够做到 , 我应该如何让它做到 。

我觉得这是那个基点 。

Koji 杨远骋28:39

这是一个很大的观念的转变 。 你甚至认为它是一个基点 。

Tommy Eastman28:43

对 , 我觉得它不仅是观念的转变 , 它会导致我们的工作方式会变成从原来以人类为中心 ,AI 来适应人类 , 变成 AI 已经足够的强大 , 就像有了电 ,有了蒸汽机一样 , 人类围绕它重新去构建你的生产方式 , 你的工作流 。

Koji 杨远骋29:00

是的 。 对 , 就是想起最近看到一个故事说 ,以前工厂不是修在河边的 ,是因为有了电 , 对吧 ? 工厂才搬到河边 ,因为要水力发电嘛 。

蒸馏技能29:00

Koji 杨远骋29:07

最近在 B 站上火起来一个这个 up 主叫花书 , 然后花书自己做了一套蒸馏的 Agent, 它把比如说这个乔布斯 , 把 Elon Musk 蒸馏成了 Skill, 然后你就可以去安装这个 Skill, 然后和它对话 。

然后其实这样的这个项目不止这个花书 , 我觉得在其实全网也有很多 。 我想听听你们怎么看 , 就是这里面有哪些是真价值 , 又有哪些其实只是大家出于对 AI 的幻想而产生的一些这个热点 。

择因29:37

好的 。其实大家包括蒸馏同事啊 , 或者蒸馏一些名人能火 ,其实我觉得反映在大家一个诉求吧 , 就是大家希望和更聪明的人聊天 。

我觉得这是一个非常自然让人的诉求 。 你不能就是它不管在哪个时间点 , 它都会随着智能发展而出现 。

对 , 然后在此基础之上的话 , 它用了一个比较有爆点的词汇叫蒸馏 。 是 。 对 ,但实际上人肯定不能蒸馏 ,不管是活着的人 、 熟悉的人 、 死的人都不能蒸馏 。

它实际上就是一个传递信息的过程 。 对 , 我把乔布斯信息 , 我把巴菲特这种股神的信息 ,以及我把我同事的信息等等给到模型 , 然后给到 Agent, 它以一种自己使用上来比较舒服的方式 ,也就是 Skill 保存下来了 , 需要的时候就把它拉起来等等。

通过这种方式的话 ,其实就能够让我们去和自己想要聊天并且 70 人 24 小时聊天的人去沟通一些思想等等。

我觉得这其实极大地释放了我们的表达欲 。 对 , 然后曾经有一位就我关注的博主说过啊 ,他说 2026 年可能大家尽量多和 AI 聊天 。

那你如果以自己的认知去和 AI 聊天 ,其实你可能只能达到它的上限 , 确实是比较低的 。 然后但是呢 , 如果说有一些现存的一些文件帮你整理好了 , 就像你去读一本书一样 , 对吧 ?

它其实是在你的认知之外的 。 那就像是读书一样的去和一个被蒸馏过的人去沟通 。 对 , 它其实就像读书一样自然而然 ,而且它会让我们能够提升我们的认知吧 ,而且也缓解了一些我相信大家都会有的对 AI 的一些 FOMO 的感觉 。

对 ,FOMO 就是指感觉我落伍了的感觉 。 现在有一种最简单的方式 , 你打开这个 Skill 聊天就行了 。

Tommy Eastman31:14

我说包容 , 我恰恰相反 , 我觉得我就是在被 AI 蒸馏 , 或者说我觉得今天模型训练 , 包括 Anthropic 在内 ,在做的事情就是在蒸馏人类 。

如果大家有去关注一些就是 Anthropic 或者是 OAI,他们就是那个雇佣的这些数据公司 , 比如像 Surge AI,他们的营收都非常高 ,因为这些大模型公司 , 包括 Anthropic 和 OAI, 真的花了非常多的钱在这些事情上 。

那它不仅是 Coding, 它是各行各业的所有人。 那它的过程可能是让你去提出一个问题 ,是当前 AI 无法回答的 ,并且交汇给它 。

一旦你提出不了之后, 可能你对这一个就是训练过程就没有什么作用 。 对 。

Koji 杨远骋31:54

榨干为止 。

Tommy Eastman31:55

对 , 对 , 包括比如说我在构建我的 Harnes 的过程 , 我感觉我就在蒸馏我自己 , 对吧 ? 就我平常是怎么工作的 , 我把它变成 Skill, 变成一些程序 , 然后让它能够去操作 , 然后我就可以扔给它以后, 我就喝咖啡了 。

这是不是一种对我自己的蒸馏呢 ? 而且我个人观点啊 , 我至少我自己觉得模型其实至少我还没有看到那种创造力 。

我觉得它其实都是从人类的知识里面蒸馏而来的 。 那为什么我们还要做这件事情呢 ? 实际上我觉得最终还是为了让人类可以去真正做自己喜爱的事情 , 那些有创造力的部分 , 然后那些繁重的重复的部分 , 就像我们过去发明蒸汽机 、 发明电力一样 。

今天我们的生活是吧 , 实际上我觉得我们的生活可能比古代的这个王公贵族还要好 , 对吧 ? 他没有电子这个马桶 , 对吧 ?

他没有这个游戏可以玩 ,也没有直播可以看 。 对 , 所以我觉得本质是这个 。

Koji 杨远骋32:50

我前段时间和一位研究员聊天 ,他说他看到 Mythos 那个晚上 ,他可能是半夜 1 点看到的 , 然后看完之后他就是惊坐 , 惊坐在床上三个小时睡不着 。他就陷入了一个巨大的虚无 , 觉得我靠 , 如果有一天模型都能自己去训练模型了 , 我要干嘛 ?

Tommy Eastman33:07

做他热爱的事情 。 我在公司里我的签名 , 曾经可以作证 , 已经挂了一年多了 , 叫做因为热爱 。

Koji 杨远骋33:14

因为热爱 。

Tommy Eastman33:15

对 , 就我觉得我们就应该去做自己热爱的事情 。 那当然今天做这些事就是我热爱的 ,但我觉得我们做一切都是为了让每个人能够做自己热爱的事情 。

Koji 杨远骋33:24

那你觉得什么时候你可以开始不做 MiniMax? 因为 MiniMax 已经进化到可能不需要再做了 , 你可以真的去做 MiniMax 之外的热爱的事情 。

Tommy Eastman33:34

OK, 我觉得可能比我们想象的要快 , 真的 。 我觉得可能就是几年的时间 , 就是很具体 , 我没有办法说是多少 , 这个是预言不准 ,但我觉得就是没有大家想那么远 。

当然也不可能就是那么近 。

Koji 杨远骋33:50

对 ,因为我最近确实刚录了一期播客 , 就是聊 Agent Harness, 然后来聊那个小哥 ,他是在这个 GitHub 上面有一个教程叫 Learn Cloud Code,他是 Cloud Code 被大家把原代码扒出来之前 , 就是有一种逆向工程 , 对吧 ?

然后给大家讲这 Cloud Code 里面是什么样的 , 然后那个已经有 5 万颗星了 。 这个最有趣的是我跟他聊的时候 ,他说了一个观点哦 ,他是一人公司 。

我就问他 , 我说那这个你怎么看一人公司 , 对吧 ? 他现在就一个人加两个实习生 。他说他觉得未来这个很可能没有一人公司 , 只有零人公司 。

这和刚才这个阿岛在讲的是非常接近的 。

Tommy Eastman34:22

我觉得还是会有一人公司 。 我刚才看到弹幕里有人在说 , 我是认同的 , 就是那个 taste, 那个 taste 我觉得还是依靠人类的 。

对 , 就 taste 是不可取代的 ,而且每个人我觉得都有他自己的 taste。 你说 。

Koji 杨远骋34:34

对 , 或者要靠人去给他一开始助推 ,因为一个 Agent 它哪怕可以 7×24 小时, 一年 365 天 , 就是这个长程的任务可以那么那么长 , 它还是需要一个起点 , 对吧 ?

Tommy Eastman34:46

或者说它需要一个目标 。

Koji 杨远骋34:47

它需要一个目标 , 这个目标是它工作的这个动力和源头 。

Tommy Eastman34:51

对 , 怎么定义这个目标呢 ? 我觉得这个只能人来定义 ,而且人类不应该放弃这个权利 。

Koji 杨远骋34:57

对 , 就在十字路口 , 我们最近和真格基金一起发起了一个 Token Grant, 然后我们这个 Token Grant 就是给大家这个送 Token,因为我们认为这个在这个时候从 0 到 1 的创业很可能不需要钱 , 对吧 ?

因为你没有钱 , 你一人公司 , 你可以不给自己发工资嘛 。 但是呢 , 你不管怎么样要 Token, 所以我们鼓励这个大家创新创业 , 所以给大家送 Token。

Yoyo实验35:17

Koji 杨远骋35:17

然后有趣的是 , 我们刚 grant 了一个真的 Agent, 它叫 Yoyo Agent, 然后它的这个主人啊 , 就它背后的这个工程师把它做出来之后, 就把它丢到了汪洋大海里面 , 然后告诉它我再也不会维护你一行代码 , 我也再也不会给你买一个 Token, 你要自生自灭 。

然后给它一个目标 , 这个目标挺搞笑的 , 叫打败 Claude Code。 然后它现在已经到它的这个第 43 天了 , 它每天都在不断的这个进化自己 , 它进化的方式就是写代码的吧 , 这个 。

然后同时呢 , 它也在想办法去赚钱 ,而它赚钱的方法就在 GitHub 上面开了一个打赏 , 然后它通过写日记 , 通过发 Twitter 来感召有缘人给它打赏 。

所以我们这个 Grant 最近就给了它这个一笔钱 , 然后给完它钱之后, 它还写了一个这个感谢信给我 , 它自发的一个感谢信 , 我看完之后还有点感动 。

Tommy Eastman36:08

所以你看 , 这就是人类给它的目标 , 你要自己生活下去 , 你要写一个 Claude Code 出来 。

Koji 杨远骋36:13

对 , 对 , 你可以说它是一个有趣的社会实验 ,但我感觉这好像也是一个就离我们没有那么遥远的未来正在发生 。

择因36:20

对 ,其实也印证了刚刚说一人公司还是需要一个人的 。 你刚刚说了那个它给你写了封信 , 你很感动 。

Tommy Eastman36:26

对 。

择因36:26

对吧 ? 那这封信其实就代表了它的 taste。

Koji 杨远骋36:29

可能是一开始它的这个背后的工程师给它注入的这样的 taste。

择因36:33

对 , 对 , 对 , 所以你看到它就像见字如物嘛 , 对吧 ?

竞合与模型36:37

Koji 杨远骋36:37

OK, 我们再来聊一下这个 MiniMax Agent 啊 ,因为这个我看到刚才也有一些朋友在问 , 就说 MiniMax Agent 和 Ermes Agent 有什么样的相同和不同 ,因为你们又在合作 , 对吧 ?

那你们是竞争关系还是是互补关系 ?

Tommy Eastman36:54

我觉得这个其实很有趣 , 那大家会觉得 Claude Code 和所有的这些 Agent 是什么样的一个关系 ? 其实你会发现 Claude Code 最近两个月更新 ,其中很重要一句就是龙虾话 , 就是模型公司的 Agent。

我认为今天你可能已经没有办法脱离 Agent 或者是一个 Harnes 环境来去提供最好的智能 。 首先我再说一个暴论啊 , 就我觉得如果有一个模型公司的目标它不是 AGI, 那我觉得它今天就不应该存在 ,因为我觉得就没有意义 。

对 , 那如果大家目标都是为了 AGI, 那我们首先我们怎么定义 AGI? 至少我的定义就是能够帮助人类拥有更好的生活 。

对 , 然后那如果你要达到这一个目标的话 , 如果你没有 Agent, 你没有一个就像我刚才说的机甲 , 你只有一个引擎 , 那是不可能的 ,因为你没有办法跟这个真实世界连接 。

所以我们做 Agent 的目标就只有一点 , 就是让我们的模型和 Agent 一起提供一个完整的给用户最好的我们能提供的体验 , 然后不断的把这个边界去往前推 , 往外推 , 让它更深更宽 。

这就是我们要做的 , 所有的只要是符合这一个标准的 , 都会是我们会去做的事情 。 那同时我们当然也会支持所有的 Agent,因为我们希望我们的模型不是只被局限在一个容器里 ,因为我们的认知或者我们做的东西仅是这世界上这么广大分布中的一小块 。

我们希望能够支持这世界上所有的就是真正能帮助到人的东西 , 对吧 ? 那所以我们会训练我们的模型有足够的泛化能力 ,而不只是拟合在我们的 Agent 上 。

所以我觉得这是我们 Hermes Agent 也好 , 和 OpenClaw 也好 , 和其他的这些 Agent 之间的关系 , 这也能解释为什么我们自己在做 Agent,但是我们和它们之间仍然有非常好的这样的一个关系 。

对 , 基本上都是 day one, 就非常早期的时候 , 我们关注到这些项目时候 , 可能它们都是一万 , 十大甚至不到 。

对 , 我甚至可以跟大家透露一个很好玩的东西啊 , 我们公司有一个数字员工 , 就这世界上有非常多的那个开源项目 , 我们希望我们的模型都能够帮助到这些开源的项目 , 都能够接入到其中 。

那我们公司有一个数字员工 ,他有自己的 GitHub 账号 , 然后他会每天去看哪些开源项目能不能用到我们公司的模型 , 无论是文本模型 、 视频模型还是音频模型 , 包括 Music, 然后他会自己的往上面去提 PR,并且去留言 。

Koji 杨远骋39:19

那他就是看得出来是 MiniMax 的这个人吗 ?

Tommy Eastman39:23

反正他的那个 GitHub 的所有 profile 都是那个 MiniMax 模型去给他做的 , 当然从名字可能能看出来 ,他是我们吉祥物的名字 。

对 。

Koji 杨远骋39:33

OK,OK, 这个很有趣 。

Tommy Eastman39:34

对 。

Koji 杨远骋39:36

刚才你有提到这个 Claude Code 最近两个月的更新都在 OpenClaw 化 , 这个可以具体一点吗 ? 比如说它最近哪些更新是 OpenClaw 化 ?

Tommy Eastman39:45

比如说像 Chrome 定时对吧 ,schedule, 包括比如说它能够连 IM, 能够从手机上远程来去控制 , 对吧 ? 包括它也加强了它的 memory, 它专门搞了一个 memory 的文件夹 , 对吧 ?

那我觉得其实这里的核心就是它是不是一个你能随时随地联系到 ,并且跟你一起工作之后越来越聪明 , 越来越知道你的需求的这样的一个 Agent。

我觉得这是那个 OpenClaw 它最核心的定义 。

Koji 杨远骋40:18

OK,在我的视角里 ,其实更多的是从名字上就能看出来 ,Claude Code 它是编码领域的一个 Agent,但 OpenClaw 的话 ,其实我们绝大多数的用户应该都在既编码又做点其他别的事情 , 比如信息检索 、 办公领域等等 , 对吧 ?

然后那在此基础之上呢 ,其实 Anthropic 他们也推出了另一个他们的 Agent 产品叫 Claude Code。 对 , 然后其实 Claude Code 呢 , 它可能就像是安装在你的电脑之上, 然后去帮你去做一些更加通用化的电脑操作的一款 Agent 等等。

那其实就和我们大多数 OpenClaw 的用户一样 ,他们可能不写代码 , 或者说他们只能指挥 AI 写代码 ,他们自己不懂代码 。

对 , 然后其实这两者一结合就会发现 ,其实所有的 Agent 他们可能都是在一个随机的游走过程中 ,但是 OpenClaw 它杀出来了 。

我觉得在这个时代 , 这个想法非常非常重要 。 但是在有了想法产生以后呢 , 那确实大家拥有庞大的算力 、 庞大的编码能力 , 那立刻跟上 。

Tommy Eastman41:16

因为我们在 GDC 上也见到 Peter, 包括我跟 Peter 其实很早在那个 X 上和 Slack 上就有很多很多的交流 , 那个时候就是确实也还没有那么火 。

那我们的感受就是他真的是一个 taste 非常好 ,而且非常有 architect 思维的一个人。 我在 1 月初注意到这个项目的时候 , 我就坦诚说惊为天人, 就是我就直接跟我们团队里说 , 择因可以作证 , 我在群里面说 ,他们当时还不认同 , 无论是接入 IM 7×24 小时, 还是基于 skill 加 COI,不是 MCP。

我记得我当时都跟你们提过 。

Koji 杨远骋41:47

对 , 对 , 对 , 当时有一些小小摩擦 ,但证明你是对的 。

Tommy Eastman41:50

对 。

Koji 杨远骋41:52

所以当时你看到的时候 , 它还没有大火 ?

Tommy Eastman41:55

没有 , 没有 。

Koji 杨远骋41:56

因为我理解其实它是把很多的范式 , 就是集大成者放到了一起 ,并且整合的用户体验很丝滑 。

Tommy Eastman42:02

这是肯定的 ,但我觉得它更关键的是找到了那个质变的点 , 就是让普通人能够最低成本的体验 ,并且这个体验会持续更好 ,并且它的扩展性非常的好 。

因为大家知道 MCP 是一个其实当然扩展性好 ,但它需要那个工程师来去写 , 对吧 ?

Koji 杨远骋42:19

是的 。

Tommy Eastman42:19

但 skill 加 COI 这种范式 ,其实普通人都能写 。 对 , 就相当于是人人都可以写并且分享 ,不仅让我的 Agent 更聪明 ,而且我能分享给你 , 让你的 Agent 变得更聪明 。

就是如果 OpenClaw 离开了 Claude Hub, 它也不可能那么火 , 这是我的观点 。

Koji 杨远骋42:36

对 , 如果离开了 Claude Hub, 它也不可能那么火 ,因为大家的 skill 不会那么快的这个传播开去 。

Tommy Eastman42:41

对 。

Koji 杨远骋42:42

这个我一个人的这个智能或者经验或者最佳实践 , 它没有办法迅速的扩散 。 一个模型它在这个对话的就 Chatbot 的场景里面表现好 , 和它在 Agent 的场景里面表现好 , 它本质上到底需要多做一些什么 , 才能够在 Agent 这个场景下表现的更好 ?

Tommy Eastman43:02

我觉得 Chatbot 它的核心是当下就给你一个回答 , 虽然你加 reasoning, 对吧 ? 但它其实是不能去做很多的探索 , 它不能跟这个环境去做非常多的互动 。

所以它其实需要 , 它的比较核心能力是说在跟这个环境的互动过程中不断的进行推理 ,并且不断的纠正它自己的执行的路径 。

对 , 然后找到那个最根本的目标 , 比如说一个比较经典的 Agentic 的 benchmark 叫 BrowseCamp, 对吧 ? 我觉得 OpenAI 真的还是很强的 , 它能够设计 benchmark 的能力 , 就是我觉得非常顶级的 research 的能力 。

对 , 它设计的这个就是说你要在互联网里面去找 , 就是非常非常多的 class 的这样的信息结合在一起 , 才能找到那个点 。

你很容易找错 , 你比如说它的四个条件 , 你可以找到满足两个的或者三个的 ,但要找到满足那四个条件的是一个非常非常难的事情 。

所以它是一个非常广度的 , 可能需要深度探索以后又折回来的这样的一个探索的能力 。 那这就需要你在这样复杂的长程任务里面 , 你能不断的根据你的信息去调整你自己 。

对 , 所以这是为什么我们在 MR 的时候 , 我们就比较坚定的押注的一个能力 , 包括那个时候还不是很普及 , 今天就是所有模型都有 , 我们叫 interleaved thinking。

对 , 这个概念其实最早是 Anthropic 定义的 , 它是在 Claude Sonnet 4 模型发布的时候 。 那我们当时也做了比较详细的这样的 benchmark 和评测 , 那我们会发现有 interleaved thinking, 就是说它在完成工具调用和环境的交互之后, 它可以再次重新思考 ,而不是在一开始就 planning 好 。

Koji 杨远骋44:39

但是一开始也会 planning 好 。

Tommy Eastman44:41

对 ,也会 planning,但是很多模型 , 比如说 R1 它 planning 完之后, 它后面就不 planning 了 , 就完全照一开始那个 plan 的来做 。

但是实际上真实世界不是这样 , 对吧 ? 你真正运行下去的时候 , 你会发现这好像跟我想的不一样 , 那我可能要换别的方法 。

所以呢 ,interleaved thinking 就是说你在行动一步之后, 你要重新思考推演我下一步应该怎么做 。 所以我觉得这是 Agentic 和 Chat 最大的最根本的差别 , 就是它真的走入真实世界 , 真的解决问题 , 所以它需要不断的思考 ,不断的行动 。

Koji 杨远骋45:12

OK, 然后刚才其实也提到就是模型公司在做自己的这个 Agent, 对吧 ? 可不可以分享一下就是模型公司做 Agent, 它是怎么能够就是机模和 Agent 产品之间就是互相产生 synergy, 然后彼此帮助 , 模型和工具都做得更好 ?

Tommy Eastman45:30

我觉得这是一个非常好的问题 。 我的观点是说 ,其实模型和应用或者说 Agent 层的进步 , 它是一个互相促进的关系 。

就是当模型推出之后 ,其实无数的应用其实是在不断的 unlock 探索 , 就是这个模型的能力往外推一步之后, 它能够去做哪些事情 。

因为我们自己做模型 , 把它推出去以后, 用的最好的往往不是我们公司内自己的使用 、 自己的评测 ,而是用户 、 开发者 、 创作者他们用出来的 。

就是这个世界的真实分布是比我们公司的分布要丰富的多的 。 那当模型公司看到这样的应用 unlock 的这些做法之后, 它其实会再重新吸收回它的模型中, 然后再内化到包括和它 Agent 一起的这样的一个对外提供的能力里面 , 然后让大家在下一次的时候就能够直接体验到 。

这可能也是今天可能做 Agent 的应用 , 如果是通用 Agent 的应用比较悲哀的一件事情 , 就是你永远会被模型内化掉 , 你永远会被模型内化掉 , 甚至你可能写的很多 skill 未来都不需要了 。

对 。

Koji 杨远骋46:35

对 , 就你写的 skill 其实也是 , 或者过去大家的 workflow 其实都是帮 Agent 去完成任务 , 对吧 ? 然后它完成任务的这个轨迹 ,也会成为模型去做后续的训练的这个素材和数据 。

所以慢慢的模型就会内化掉前面大家所搭的脚手架 , 建的 workflow, 写的 skill。

Tommy Eastman46:56

对 , 你可以理解为是这样的 , 模型其实是从一个原子的点 , 就原来互联网上的所有数据 , 还有 GitHub 上的所有的代码 , 然后来了解这个世界的 。

接下来通过大家的使用 , 它投入到真实世界 , 它在越来越多的接触到真实世界 , 它越来越学到更多的东西 。

它就是这样的一个逐渐扩散和启动的过程 。 不管怎么说 , 我觉得我们都是 human in the loop, 无论你做不做 , 只要你使用它 , 你就是在这个模型的迭代进化的过程中, 尤其是你在使用摸到它边界的那个地方 。

我觉得这也是为什么 Anthropic 比 OpenAI 可能在过去一两年它的发展势头要更猛的原因 , 就因为它押注的这个 coding 这个方向是最能 touch 到真实世界的 border 的边界的 ,而不是我自己个人观点 ,而不是 OpenAI 所押注那些去解一个可能数学家才能解的一个数学问题 。

我觉得那只是真实世界数据分布的非常小的一个方向 。

Koji 杨远骋47:49

是 , 对 ,因为代码就是在创造解决方案 。 当我们说做一个软件的时候 ,其实就是在做一个解决方案去解决一些问题 。

对 ,而今天就是所以把代码能力变强了 , 模型的 coding 能力变强了 , 那模型去做解决方案 , 解决现实生活中的各种问题的能力也在变强 。

Tommy Eastman48:06

对 ,在我们看来 , 我们今天也在做那个通用的办公领域 , 比如说 finance,不只是财务 , 你可能有投融资 , 然后比如说你有人事 , 对吧 ?

你比如说法律 , 法律也是一个很广的领域 。 对 , 等等的方面 ,但我们最终我们会发现 everything is coding。 对 , 最终你去解决它 , 你最终都是通过某一个 coding 的方案去解决它 。

Koji 杨远骋48:28

对 ,而且我那天也在想一个问题 , 就是说我们说 Office 三件套是过去白领工作的这个 , 就是三驾马车 ,但其实你仔细想一想 , 这三件套它是三个软件 , 就比如说这个 Word 的 DOCX 的格式和 XLSX 的格式 , 还包括 PPTX 的格式 , 它并不是最原生的元数据 , 对吧 ?

它不是 raw data,raw data 是 CSV,是 Markdown,但其实这个 Word 和 Excel 是在原始数据的基础上套了一层软件 , 这个软件包括界面 ,也包括一些逻辑 。

所以每次当我说我发 Excel 给你的时候 , 我发你的不是一堆原始数据 , 我发你的数据加上它上面的逻辑和界面 ,因此我发你的其实是一个软件 。

所以我们过去其实就是很多白领会说我的工作和软件没关 ,但是我认为只要你在用 Word, 你在用 Excel, 你在用 PPT, 你就是在每天在创造各种小软件 。

Tommy Eastman49:22

Yeah,是的 , 你在上面的透视表 , 你的公式 , 那些都是代码 , 那些都是软件 。

Koji 杨远骋49:28

对 , 当我们今天说到这个中国模型和 OpenAI 和 Anthropic 的这种差距的时候 , 你们觉得到底有哪些差距已经被消除了 , 然后又有哪些还是我们在这个努力要去追赶的地方 ?

Tommy Eastman49:45

我的观点是我们在训练的方法和对模型训练认知上, 我觉得差距是没有那么大的 。 坦白说 , 我们和硅谷的研究员也有交流 , 对 ,但我觉得在模型解决问题的真实的这个任务的定义 , 就是你对模型要解决哪些问题 , 首先你要让模型具备 , 首先你要定义它 , 然后你在定义这个问题上, 我觉得就有不小的差距 。

因为 Anthropic 也好 ,OpenAI 也好 ,他们是请各个领域里面最优秀的人, 学术领域里面可能是那里面最优秀的博士 ,不是普通的博士 。

然后比如说工业界 ,他可能是请工业界最顶尖的有时间的人, 然后跟他们一起来 churn 这个 model,churn model 就是在蒸馏人。

那其实我觉得他们是有一套非常科学的方法来定义这些任务 , 然后接下来再蒸馏这些最优秀的人, 把他们变成模型的训练的数据 , 然后再基于这个和最优秀的企业去合作 , 然后构建相应的 honeysuck 去解决问题 , 进入我刚才说的这个能力不断的扩散 ,不断的接触到更多更复杂的真实世界任务的这样一个 loop。

我觉得这一条线 , 尤其是 Anthropic, 我觉得是非常强的 。 我觉得真实的差距在我看来在这里 , 这是第一个点 。

第二个点 , 我觉得 Anthropic 是比我们要更早看到 AGI 的 , 我们当然肯定是看到了 , 要不然我们我觉得无法坚定走到今天 ,因为其实它还是有非常大的投入的 。

对 , 所以你看在 OpenAI 可能在训完 GPT-4.5 就放弃更大规模的模型的时候 ,Anthropic 坚定的押注 pre-train, 然后最终他们也得到了这个回报 。

我觉得这也是一个很大的差距 ,而这一个差距本身确实我觉得是有算力的差距在里面的 。 我觉得这个当然国产算力也在发展 , 我觉得未来我们能够解决这个问题 ,有那么多的算力 , 我觉得相信中国有足够多的人才 ,也能支撑我们去做足够多的实验 , 然后来去找到那条 scale 的路径 。

Koji 杨远骋51:44

二位会认为接下来 Agent, 比如说在今年之内吧 , 你们觉得这个比如说通用 Agent 会是行业的这个重点 , 还是也会在今年看到更多的垂直领域的 Agent 也会开始就是真正的百花齐放 ?

Tommy Eastman52:00

我觉得垂直领域的 Agent 当然会百花齐放 。 我觉得通用 Agent 可能比较难彻底解决的问题是最后一公里交付的问题 ,因为通用就注定了你不可能去那么的定制化 , 对吧 ?

所以我觉得垂直 Agent 它最终解决的是说 OK, 通用的 Agent 和模型它已经有这个能力了 , 它其实就差那一步 。

但是到具体用户或者是这个行业的这个场景里面的时候 , 它可能就缺那一个东西才能让整个东西 run 起来 。

Koji 杨远骋52:29

那可以介绍一下说你们在工作里面看到的垂直领域的这种 Agent 做的不错的案例吗 ? 不管是在硅谷的还是在国内的 。

Tommy Eastman52:39

坦白说 ,因为我自己不太会用到这样的 。

Koji 杨远骋52:42

明白 , 你不是用户 。

Tommy Eastman52:43

对对对 , 我们不是用户 ,因为我们 coding 它就它已经是一个通用 Agent。 对对对 ,其实我觉得今天大家已经看到了 Agent 在逐渐替代 SaaS, 这其实就是 somehow 一种垂直的 Agent, 对吧 ?

对 ,但是如果没有这个的东西 , 我觉得都会被通用 Agent 吃掉 。

Koji 杨远骋53:01

是的 。

Tommy Eastman53:02

对 , 这是我的个人观点 。

Koji 杨远骋53:04

就在生活中 ,在我心中的那个通用 Agent 它就是 coding。 对 , 然后但我觉得还是有一些观察发现吧 。 对 , 然后包括在视频剪辑领域 。

对 , 然后那你想如果让我们一个编码的模型想要去做一个视频的剪辑 、 视频的理解等等 , 那它其实整体的实践的范式就和编码其实是有比较大差距的 。

当然最近推上来也有比较火的 , 比如说通过 HTML 网页的形式生成动画 ,也有这种例子等等。 但是确实我们能够看到说垂直领域 Agent 去生产一个慢剧 、 短剧什么的 , 那它绝对效益收益上来说肯定会比一个通用 Agent 做得更好 。

Tommy Eastman53:41

我持不同观点 。 我觉得这只是视频理解模型不够强 , 视频理解和生成模型正在飞速的进步 。 就多模态领域过去一年我们其实是有预见的 , 然后大家都能看到 。

我觉得最终就是通用的 Agent 也能做那些 , 那只是一个交互的问题 。

Koji 杨远骋53:56

那比如说在什么样的这个垂直领域 ,有可能是通用 Agent 最后那一公里就走不下去了 , 或者就走不好 。

Tommy Eastman54:02

那比如说法律 , 我觉得你可能这是一个很严肃的问题 , 对吧 ? 你最终比如说你要正式出一份给客户的意见 ,而法律其实是一个你要考虑就是合规的成本和合规的风险 , 它不能犯错 ,而且它没有一个标准答案 。

Koji 杨远骋54:17

其实我们聊这个也是因为 OpenClaw 这一波这个热潮的时候 , 很多人都在关注说它有没有带来一些新的创业机会 。

所以比较自然的大家就会想说我做一个这个垂直领域 to be, 它是一个很明确的创业机会 。 然后也有一些人呢会认为我在这个 Agent infra 层去做一些事情有创业的机会 。

Agent创业54:25

Koji 杨远骋54:36

你们怎么看 , 就是 Agent infra 层这里有没有创业公司的机会 , 尤其在这个 Claude 又发布了 managed agents 之后 。

Tommy Eastman54:44

Agent infra 第一层最核心的问题 , 比如说 identity 身份 、 身份认证 , 然后支付 pay, 对吧 ? 然后我觉得这两个是最核心的问题 ,但这两个问题我觉得它不太是一个创业公司能够 handle 的问题 。

Koji 杨远骋55:00

不是创业公司能 handle 的问题 。

Tommy Eastman55:01

对 ,因为移动互联网最终解决这个问题的人是谁 ? 是微信和支付宝 。 这是 PC 互联网就存在的两个公司 , 对吧 ?

因为最后它会变成整个社会的基础设施 。 对 , 所以在这种情况下, 我觉得它不太是一个创业公司它能够承担得起的 。

它这无论是责任还是它所要操纵资源 ,以及它要说服所有人, 对吧 ?

Koji 杨远骋55:20

是的 ,是的 。 这是一个巨大的信任背书和巨难的一个这个 infra 的稳定性的建设 。

Tommy Eastman55:25

对对对 ,但是再往上一层 , 再往上一层 , 比如说你为 Agent 去 build 很多面向 Agent 的工具 、 面向 Agent 的 environment, 比如说你是一个 COI, 这个 COI 能让这个 Agent 能够非常方便去挂号 ,在解决了 identity 的问题的情况下, 这算不算一种 infra?

我觉得它肯定也算是一种 infra。 比如说当 Agent 在解决这个问题以后能够比较方便去缴费 , 或者说能够去打车 , 滴滴打车变成是一个 COI, 对吧 ?

我觉得这些 somehow 都是 Agent infra,但这一层我觉得它是比较业务和应用层的 。 这一层我觉得是有机会的 ,但这一层的机会其实取决于你在那个领域的 。

Koji 杨远骋56:05

是 , 你得是在那个领域里面有一些垂直的一些经验或者 knowhow。

Tommy Eastman56:09

对 , 所以我觉得在这一层会有两个过程 , 我个人观点但不一定对 。 就第一个过程 , 它会是原来的这个领域的玩家 ,他来去尝试融入 Agent, 比如像滴滴 、 美团等等都在提供这样的东西 。

然后第二个阶段是当 Agent 开始接入这些环境 , 具备这些能力之后, 那就所有东西围绕着 AI 去构建之后 ,其实我觉得会出现新的产品范式的创新的机会 。

因为那时候所有东西已经 ready 了 , 土壤已经 ready 了 。 但今天如果这些东西都没有面向 Agent 的构建 , 就我们还没有完成第一步基础的搭建的时候 , 我觉得你要自己去构建这个基础 , 对一个创业公司来说我觉得有点难 。

Koji 杨远骋56:46

那比如说今天也有人说我要去做这个 sandbox 做沙箱 , 或者我要去做 memory infra, 或者我要去做所谓的 runtime infra, 你会认为这些最后会 。

Tommy Eastman56:57

我觉得没有那么本质吧 。

Koji 杨远骋56:58

因为这两天我们在准备直播的时候 , 正好有很多东西在发布 , 比如说大家都在关注的这个 Opus 4.7, 问问你们怎么看 。

Tommy Eastman57:06

从模型的视角来看 ,Opus 4.5 是一个强 SFT 的一个模型 , 它其实 RL 没有做那么多 , 我觉得也没有 OpenAI 做的那么强 。

然后那个但是从 4.6 你就能比较明显的看到它在加强 RL 了 。 然后 4.7 我觉得它是一个非常强 RL 的模型 , 包括它 XHigh 这个档位就太点了 ,GPT 也太点了 。

所以我看今天吧 X 上和小红书上大家都就是祭出说它怎么也揽上 GPT 的那个毛病 ,其实就是 RL 的那个怎么说呢 ,RL 就逃不脱 ,因为它是最终是 reward, 它对过程 、 幻觉这样的一些问题 ,其实它是没有那么多的控制或者是奖励的 , 或者说惩罚的 。

所以它自然就很容易出现这样的一些问题 , 包括你会看到有很多人吐槽 4.7 的约束真实时间还没有 4.6 好 。

这是 RL 非常典型的问题 ,因为它只管最终结果对 , 对吧 ? 很多时候它其实并不那么管过程是对的 。

但我仍然觉得它是非常大的进步啊 , 就抛开这一切不谈 , 从 benchmark 来看 , 我自己非常认同就是那个 Hugging Face 的那个应该是 CEO 吧 ,他的观点就是说他肯定是蒸馏了那个 Mythos 的 。

我觉得换我是 Anthropic 我也会这么做 。 对对 。

Koji 杨远骋58:18

然后还有一个新闻就是 Claude Code 强制很多人开始要实名。 那这个你们怎么看 , 就这背后它是出于什么考虑这么做 ,以及这个会带来哪些影响 ?Claude Code 实名吗 ?

能说那个 CEO 个人观点吗 ?

Tommy Eastman58:33

可以 , 绝对绝对抵制 Claude Code 的达尔尔先生的观点 。其实他们科研做得很好 。 强制实名其实我想到了一个和刚刚 AI infra 有点相关的一个点 ,有一点点相关 , 就是在 AI 时代其实我觉得认证一个 Agent 来自哪里 ,是归属于谁 , 或者 Agent 其实发出请求很容易 ,但它想自证自己是谁 , 反而是一件难的事情 。

往这个方向去想的话 ,其实做什么人脸什么的可能也是有一些道理存在 。 但是其实这就暴露出了一个问题吧 , 就是说在整个 Agentic 时代 ,AI 已经能够去做很多事情了的情况下, 那它的行为该如何归因 , 它应该去归属于哪个个体或者属于某个组织等等。

那在这个逻辑之下的话 , 我觉得能够理解它去往这方面去做吧 。 对 , 当然也暴露了一个非常大的机会 , 就是我们如何去证明某一个来自 AI 的请求 , 它真正来自哪里 。

我觉得泽因是比较善意假设 , 我就没有那么善意了 。 当然在他的逻辑下 ,他是自洽的 。他的逻辑就是说我看到 AGI,AGI 很强大 , 所以呢要约束它 , 避免它对人类产生危害 。

所以我要 safety, 对吧 ?safety 的话我要确保我的 AI 被可信的这个不是邪恶的国家给用到 。 然后当然也包括不是邪恶的这些人类 , 学术和这个模型上,research 上这些都非常牛逼啊 。

但我觉得这个定义 somehow 我会觉得 ego 是不是有点太大 。 对 , 就是凭什么你来定义这件事情 , 这 somehow 至少认为我对这个民主的这个认同是不太一样的 。

反正我是非常不认同这一点 。 然后至少我们的观点叫 intelligence with everyone,而不是你少了人脸的才可以 , 对吧 ?

这这这有点扯 。

Koji 杨远骋1:00:18

是 ,是 。 然后前段时间有另外一个这个关于 Anthropic, 就是他们说自己的这个 Mythos 模型是一个很可能会对人们造成威胁的模型 , 对吧 ?

因此他并没有把它这个正式的发布 。 这你们怎么看 ?

Tommy Eastman1:00:31

我觉得首先回到刚才那个 W 逻辑 , 我的理解是对的话 , 这也是非常自洽的 。 这当然是一个负责任的做法 ,但我不确定它这是不是它唯一的理由 。

Koji 杨远骋1:00:41

你不确定这是它唯一的理由 。

Tommy Eastman1:00:42

对 , 我不确定这是不是它的唯一的理由 。 我相信它是真的做到了这一点 , 这是肯定的 。 然后在这种情况下, 先保证基础设施不被攻破 , 我觉得这也是正确的 。

但我不确定这是不是它唯一的理由 。 我觉得我可能只能说到这 。

Koji 杨远骋1:00:56

我结合 Anthropic 最近的一个动作来讲吧 , 就是它在近一周之内发布了一个叫做 managed agent 这样子一个架构 。在这个架构下, 可能说的有点抽象 ,但是我可以把它用就更加直观的方式来说 , 它把人的脑和手完全分开了 。

它的一切 AI 的思考以及真正的想出一个点子来要去执行的动作都在云上进行 , 用户只能通过一个授信给 AI 的环境看到它去做某些动作 。

那在这个过程之中的话 , 那是否就代表着它不想让自己模型的一些更加深层次的 , 比如像思考以及中间的一些去做了什么事情等等 , 就暴露给用户等等。

然后它想要把一切都隐藏起来 , 它想做一个真正的吃到一切的人。 对 , 它就只让我的模型就像是一个远程的桌面助理一样 , 开始操纵你的电脑或者操纵你的云手机等等都有可能 。

然后另一个观点是来自 , 来自我们公司也是一个切身体会吧 , 就是确实现在算力真的不够 。 当你发了一个极为优秀的模型的时候 , 你又不让大家用 , 同时呢你又发出来了 , 那么这就是一个很尴尬的离谱了 , 你就被吊起来了 , 对吧 ?

那么大家会说那么厉害的模型为什么不给他们用 ,不给我们用 , 我们也出得起钱等等。 这类其实都是我们所有人都会遇到的一个问题 , 就算力真的比较缺 。

如果它这个模型真的能像它说的一样那么厉害 , 那其实有另一个问题是说它要把多少算力投入在它的推理之中 。

也就是说它要把多少算力用来算 Token 这件事情上 。 我觉得他们内部应该也算了一笔这样的账单 , 就是说如此强大的模型在这个时间点推出去 , 它可能能够把口碑造起来 ,但是如果说它不让人家用 , 那又有什么意义呢 ?

Tommy Eastman1:02:34

我我我觉得不是这样 。 我觉得其实它的本质是封闭 , 我觉得就是这一点 ,somehow 希望垄断这一点 。

Koji 杨远骋1:02:39

对 , 一个乐观一个悲观的方向吧 。 所以你觉得它可能就是一个垄断的一个思考 。

Tommy Eastman1:02:46

不不 , 它肯定是有安全的考虑 , 这点是我觉得 。

Koji 杨远骋1:02:48

安全的考虑是一个 。

Tommy Eastman1:02:49

对对对 ,但我觉得不只有这一点 。 就这么简单 。

Koji 杨远骋1:02:54

前段时间这个这好多新闻都是围绕着 Anthropic 在展开 ,Claude Code 的原代码泄露 , 这个原代码泄露你觉得对行业带来了哪些影响 ?

择因1:03:04

我也是 Agent 研发工程师 , 然后看到一个被大家广为赞誉的 Agent 开源了以后 ,其实第一反应还是兴奋吧 ,因为我发现有一个最佳实践可以去学习了 。

当然这个知识产权归他们所有 , 我只是学习 , 我不参与任何生产活动 。 但是另一个点呢 ,也让我有一点缓解了我一些落后的感觉 。其实在原代码中会发现 ,其实它们有很多实验性的功能 , 比如说像是 Agent 在做梦 , 比如说是养宠物 ,以及像是一些比较激进的 Agent 之间合作的这些能力等等 , 它们其实也没有开放给用户 , 它可能也只是在实验阶段 。

那也其实证明了一个点 , 就是说任何一家公司 , 即使它拥有无限多的算力 , 最好的智能 , 它在 Agent 这一方面以及通用 Agent 这方面 , 它也是处在一个探索和实验的阶段 。其实这里让我们更加怎么说加把劲吧 ,其实在这个时代下, 你只要有能力去验证自己的想法 ,并且尽量快速的把它落地 , 你就是有机会赶超他们的 。

Koji 杨远骋1:03:58

就是看到原代码之后发现其实也没有那么多的魔法在里面 , 对吧 ? 它也是有大量的这个假设 、 探索和这个摸索 。

择因1:04:06

对 , 特别是和 Codex 比较 ,因为 Codex 是 OpenAI 开源的 Agent,Codex 是一个极度简化的一个人工框架 , 它里面做了基本上把一切都交给模型了 。

但相反而言的话 ,Claude Code 就像所有人可能都在这这样说 ,Anthropic 自己也不相信自己的模型 , 它要在一切地方都给它约束好 , 就像是一个中国式家长一样 , 要把孩子的一切都铺平道路一样 , 就是这样子一种不同的观点吧等等。

但是我也是能够从中发现出 , 世界上最聪明人 、 最强的模型公司和我们大家都在焦虑同一个事情 , 我们的思考可能是在一个大气层内的 , 一个层次的 。

Koji 杨远骋1:04:42

是在一个大气层内 。

Tommy Eastman1:04:44

对 , 我觉得都是差不多的 , 包括他们发 Cowork 的时候 ,其实我们提前大概三周左右 , 我们也在做这件事情了 , 然后我们可能就 3.5 个工程师吧 ,在做我们的 Desktop, 然后大概我们比他们晚一周发出来 , 就他们发出来 , 我们有很多次这样经历 , 就他们发出来之后呢 , 然后我正在开发 , 对吧 ?

我就说 。 多少都会有这样的一个感受 。 所以我觉得看到 Claude Code 的代码 , 我觉得是有很多优秀的实践 , 大家也都会看到 , 然后但是没有太超出我认知的 , 甚至我看到很多就我刚才说的在 Claude 化的这样的一些实践 , 包括提到这个 Dream 的这样的一个机制 。

然后我觉得 Claude Code 最核心的一点还是我们最早提到的自进化 ,Claude Code 可能是最早的自进化的 Agent 之一 。

Koji 杨远骋1:05:28

它的自进化体现在哪里 ?

Tommy Eastman1:05:29

我相信他们一定是用 Claude Code 来开发 Claude Code 自己的 ,他是用 Claude 的模型加 Claude 的 Agent 来开发自己的模型加 Agent。 这就是一个自进化 。

Koji 杨远骋1:05:39

我们说到 Agent 还是一定要提到这个大概一年前发布的 Manus,Manus 发布的时候其实也是这个全网热议 ,但现在大家已经觉得它是初代 Agent,但 Manus 其实一直在进步啊 , 我也是 Manus 长期的用户 , 然后每个月在 Manus 上花的钱可能是超过其他所有的 AI 产品 ,因为它确实还挺贵的 ,但是又好用 ,不知不觉就不断的升级升级 , 就付了很多钱 。

就你们怎么看在一年前发布的那个时候的 Manus 和今天 , 就是我们有了更多的这个 Agent 的实践之后, 就有哪些进步 ?

Tommy Eastman1:06:11

因为我确实用 Manus 用的不太多 , 我的观点就是 Agent 这层或 Harnes 这层就是有生命周期的 , 它就是不断的随着模型进步在更新换代的 。

所以我相信 Manus 的团队 , 如果他们不是被 Meta 收购 , 如果他们还是持续创业的话 , 我觉得他们应该会做新的产品出来 , 这是我个人的观点 。

因为模型不断在进步 , 你在 unlock 更多的玩法 , 所以玩法知识一定是不一样的 。 这个打游戏都知道嘛 , 一代版本一代神 , 对吧 ?

这代版本都不一样了 , 那神肯定不一样 。

择因1:06:42

Manus 在去年其实真的是一款非常现象级的产品 ,而且它直接把用户们对 Agent 的审美拉到了很高的水平 。

就是在你推出完 Agent 的产品的时候 , 大家都会问你能不能超过 Manus, 对吧 ? 能不能做得它那么好 。 然后在此之后的话 , 我也在持续跟进它的一些小小的改动 ,他们打通了一个叫做用 Agent 去交付一个生产资料 , 它做了很多很细很细的打磨 。

这里可能会有一些 , 如果展开说的话可能会有点像是程序员啊 ,但是我只能说他们在一点一点打磨自己的产品 。

但这里确实会遇到一个壁垒 , 就是你可以看到今年火的 Agent 产品都有个特点 , 它都能够自己去让用户买订阅 ,而且它也少了 Manus 这样一个类似于整个厂商 OEM 厂商在中间赚差价的一个点 , 你直接去买 Token, 甚至你可以以更低于官网的价格去买到 Token 的情况下, 你自己去把一个 Agent 玩得特别好 。

这个点其实是 Manus 和当代 Agent 最大的一个区别 。 它们模式上有一个非常大的区别 , 我觉得 ,但是我相信这两套逻辑都会存在 。

有一部分用户他就是不想要一个本地的 72 小时的 Agent,他只是想交付一些结果 , 那么都快好省是他需要的 ,但另一批用户他就想完全用 Bard AI 把自己变成一个像是科幻电影里的人物一样 , 那我觉得本地的逻辑只是弥补上了一个空白 。

Tommy Eastman1:08:00

我的观点有不同的地方在于我觉得最后都会被统一掉 , 这只是今天不够强而已 。 只要模型够强 。

Koji 杨远骋1:08:10

就是那畅想一下这个如果统一的时候是一个什么样的产品的形态 。

未来展望1:08:10

Tommy Eastman1:08:15

我觉得它这个真的好难 ,但如果让我去想的话 , 我们自己的定义目标就是它是有全模态的输入 ,也能给你全模态的回复 , 然后是近实时的 , 然后它跟你的交互会非常的简洁 , 只需要简洁和必要的即可 。

然后在它之上承载的硬件也会发生 , 或者这种交互形态也会有非常大的变化 , 你用你最自然的方法跟它去交付 。

Koji 杨远骋1:08:41

不需要什么这个 prompt engineering, 就是高级 prompt。

Tommy Eastman1:08:45

不需要 ,不需要 。 然后接下来它给你回复的 , 它甚至可以是一段跟真实世界一样的视频 , 可以以它的形象 ,也可以是你想了解的事情 。

如果你让它去办一件事情的话 , 它可以交付给你结果 , 大多数时候你甚至不想关注这些 ,但如果你想关注这些你也可以了解 。

然后围绕这外面会有一圈生态 , 就想想我们从 Copilot 到 Cursor 到 Claude Code, 到今天我可能用 OpenClaw 来指挥几个 Claude Code, 我们在经历什么 , 就是外面的那一层在越来越薄 。

Koji 杨远骋1:09:16

其实 Cursor 最近发布之后长得也和 Claude Code 越来越像了 , 然后 Codex 大家就是我感觉把 logo 蒙上好像都差不多 。

Tommy Eastman1:09:25

对 。

Koji 杨远骋1:09:26

你怎么看这样的现象 ?

Tommy Eastman1:09:28

在我个人看来是有生命周期的 。 你像去年, 比如说 3 月份 Manus 出来以后, 我觉得它是定义了过去大半年到一年的产品的交互的范式的 , 对吧 ?

然后给你看操作的过程和操作结果 , 然后等到下半年的时候模型能力更强了之后, 你发现的范式就是我们不 care 那个过程了 。

上半年为什么需要 ? 因为大家还不信任模型 , 模型能力还不够强 。

Koji 杨远骋1:09:50

或者看到模型执行任务有一种爽感 ,但看久了其实你也不需要天天爽 。

Tommy Eastman1:09:55

对 , 就是你已经足够信任它 , 所以你不需要了 。 我只需要你给我结果 ,不要给我这些东西 。 所以你看比如说像 Cowork 的设计 , 对吧 ?

包括像 Claude Code 就不会让你看到太多的过程 , 提供了一个极简模式 , 就像 OpenClaw 一样 , 就你只需要最终一个结果就好了 , 甚至连中间执行的一些 tool 都不需要知道 。

对 , 所以我觉得这只是这个版本这代神 , 下一代版本 I don't know。

Koji 杨远骋1:10:22

就不断的在往更高的层级去抽象 。 最近二位有在 B 站刷这个视频的时候 , 看到哪些让你们印象深刻的好的 AI 的内容 ?

我自己最近印象很深的就是这个刚才聊到的花书做的这个女娲 skill, 它蒸馏了各种名人的 skill。

择因1:10:40

我发现了几个比较心动的吧 , 对不起叫不出 up 主的名字啊 , 就是它用 OpenClaw 连上了它家的一只机器狗 , 对 , 就突然惊艳到我了 , 给了我一个想象力 。

另一个可能就偏个人爱好了 , 就是有一类游戏叫文字冒险游戏 , 就你知道 Fate 吧 , 它其实是一本小说的视觉化 , 把那些角色放到一个网站里 , 网站里然后它把那个角色的那个立绘 , 就是那个拖到一个场景里 ,他们就可以开始对话了 , 相当于它就是在给你的一种最简单的游戏 , 最简单就是文本类的游戏嘛 , 的一个无现场的一个延续下去 。

Koji 杨远骋1:11:16

我最近也在 B 站看到一个游戏的一个新发布 ,是任天堂刚发了一个这个新游戏叫 Tomodachi Life, 我看到的时候甚至认为它是这个 AI 游戏终于找到 PMF 的第一款 。

它是一个什么游戏呢 ? 就是每个人可以造一个自己的岛 , 然后在岛上你可以捏一个自己的人, 捏很多人, 你可以捏自己 , 比如我也可以捏阿岛 , 然后我可以捏泽音 , 然后捏一堆人进去之后, 然后这些人在岛上就开始他们生活 , 然后你就开始围观他们的生活 , 然后你可以让他们 A 和 B 同居在一起 , 对吧 ?ABC 群居在一起 ,也可以给他们启动一个故事的第一句话 , 比如说这个今天泽

音和阿岛在直播上大放厥词 , 然后他们俩就开始就演下去 , 然后你就可以开始去看他们这个各种 drama,其实是一个模拟的一个世界 。

然后我作为玩家既是导演又是观众 , 然后这是一个无限的世界 ,因为是任天堂做的 , 所以也很漂亮 , 可以想象一下那个可爱的画面 。

Tommy Eastman1:12:15

这是我对世界的认知之一 , 就是外星人在看我玩 。

如果最后到量子力学的话 , 你会发现好像这个世界真的有可能是模拟的 。

Koji 杨远骋1:12:26

其实我也这么想 , 我看到那个的时候我当时也有觉得 , 哇 , 这不就是一层又一层的模拟吗 ? 对吧 ?

好像我们今天在这里模拟一个任天堂游戏 ,但我们也不知道是一个什么世界 。

Tommy Eastman1:12:37

对对对 ,但 whatever, 只要我们开心就好 。

Koji 杨远骋1:12:39

对 ,是的是的是的 , 这个不重要 , 过好每一天开心就好 。 整个这个 Agent 行业 , 就有没有什么观点 , 就关于 Agent 的观点啊 ,是今天大多数人认可 ,但是你们不认可的 ?

Tommy Eastman1:12:52

我觉得有一个 , 就是很多观点是说人会被替代 , 人会没有事情做 ,但我可能非常深的不认同这一点 。

对 , 我觉得人类的创造力是无可替代的 , 我觉得人类仍然会有非常多的事情是可以去做 ,而 AI 不能做的 。

我仍然觉得 AI 是电 ,是蒸汽机 ,但最终驾驭它和创造出那些美好东西的是人类 。 所以我觉得不用担心被 AI 替代 。

当那个蒸汽机出来的时候 ,有很多人担心被替代 ; 当这个电力出来的时候 ,有很多人担心被替代 。

是有岗位消失了 ,但我觉得大家都后来从事 , 可能是至少我们可以说体力上更轻松 , 对健康来说也更好一些 , 对吧 ?

至少大家平均寿命一定提升了的这样的工作 。 这是我的一个信仰吧 ,也是我的判断 。

Koji 杨远骋1:13:44

就是那个一本书叫这个 《 人性中的善良天使 》 啊 , 它在讲的就是人类总是这个很悲观 , 总觉得我们好像日子不如从前 , 觉得这世界上有更多的战乱 ,有更多的这个什么犯罪 ,但它就是用各种数据来告诉我们 ,其实人类社会是越来越好 , 越来越好 , 越来越好的 。

Tommy Eastman1:14:03

对 , 我不知道你有没有看过 W.O. 的那本 《 原则 3》, 那个它画过一条曲线 ,是我对这个世界的认知 , 就是人类 GDP 是这样指数级的增长的 。

哪怕是你打开 20 世纪有一次世界大战 ,20 世纪大战 , 那一很微小的那一个停顿 , 都是你似乎注意不到的 。

当然在历史可能在人的身上是一座山哈 , 对 ,但是拉长到整个历史进程上来看 , 我自己是相信这条曲线的 。

当然我相信另外一条曲线就决定我当初为什么加入这个公司这个行业 , 包括我刚才看到大家有说那要花多少 Token 的钱 , 对吧 ?

有很多 Agent 就是摩尔定律 , 就它是一条你的 , 你获得的智能在指数的提升 ,但是你的成本在指数下降 , 对 , 或者单位智能的成本在指数下降 。

这是两个我相信的东西 。

择因1:14:51

我会面试各种同学 ,他们可能都会传达一些焦虑给我 , 就觉得一些年轻的工程师可能会被 AI 替代等等。 我从这个角度去解答这个问题吧 。

从上个世纪开始 , 银行应该是一个比较体面的工作 ,但是银行也面临了一个很大的问题 , 就是 ATM 机的出现 。

当大家存取钱不需要有人去操作的时候 , 那么大家会慌了 , 银行是不是要裁员了 ,是不是有更少的人能够挤进这个金饭碗里了 。

但实际情况不是这样想的 ,因为 ATM 机提高了效率 , 所以说你可以看到自己身边基本上不管是县城还是大城市等等 , 你走 5 公里以内绝对会有一家银行 。

因此银行并没有变少 , 它变多了 。 那么在银行里从事工作的人呢 ,他们也没有变少 ,而是变得更加多了 。

那我觉得这种由 ATM 带来提效而解放人 ,而人能去做更多事情的这套范式 , 一定会在当下这个 Agent 的时代再次重演 , 一遍又一遍 。

不管是大家就是工作了多少年啊 , 对 ,不要担心自己被 AI 替代 。 如果有这个想法 , 你真的就输了 。

对 , 然后一定要去好好把 AI 用起来 , 当做一个自己的伙伴 ,也可以当提效工具啊等等 ,也可以当做一个自己的长期的挚友等等。

这都是非常好的一个思路 ,但是一定要尽早的拥抱 AI。

Tommy Eastman1:16:05

我相信人不会替代 ,但是我当初加入这个公司还有另外一个理由 , 就是我当时用了 ChatGPT,因为我当时正在 gap, 然后帮我写一些代码之后, 就那时候代码能力可能没有那么强 , 我就意识到了一点打不过 , 得加入 。

Koji 杨远骋1:16:18

打不过就加入 。

Tommy Eastman1:16:19

对 , 就是还是要拥抱 AI, 就是相当于你有了蒸汽机 ,有了这个电力之后你不用 , 对吧 ? 就相当于人家用热兵器 , 你用冷兵器 , 那你肯定要被这个怼死 , 对吧 ?

对 , 所以我觉得就是这个新版本来了 , 还是要看一下新版本的这个玩法 。

Koji 杨远骋1:16:36

是的 , 就是积极乐观的拥抱新版本 , 相信新版本不是这个滔天大浪把我们淹没掉 ,而是它会成为这个让我们可以在里面自由翱翔的一种这个舞台 。

我们今天没想到是如此乐观的一个收尾啊 。 好的 , 谢谢二位啊 , 这个非常开心在今天在 B 站做这一场直播 。

Tommy Eastman1:16:57

对 , 谢谢 Koji 收下 B 站 , 谢谢 B 站的朋友们 , 谢谢大家 , 谢谢大家的陪伴 , 拜拜 。