开场0:00
欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚 AI 时代的积极行动者 , 和他们一起探索和拥抱新变化 、 新的可能性 。
我是主播 Koji 杨元成 , 联合创办了 《 街旁 》《 新世相 》 和 《 躺倒 》。 我相信科技 , 尤其是 AI, 会在未来 10 年彻底改变社会 , 赋能人类 。
欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性 。
三周前 Manus 发布了 , 一夜之间在国内刷屏 , 紧接着它在海外也受到了高度的关注 。Twitter 的创始人和 CEO Jack Dorsey 也难得地发了一条推特 , 说到 "Excellent!"。
那最新一期的 《The Economist》,也就是 《 经济学人 》 杂志 ,其中有两篇文章都提到了 Manus,其中还有一篇是专门写 Manus 的 。 那在爆火之后,Manus 也引发了很多争议 。
那今天的播客里面 , 我们不是来聊争议的 ,因为我认为不管此刻多么的喧嚣震天 , 或者风雨满城 , 那最终会尘埃落定的 。
而尘埃落定之后, 产品好才是真的好 。 那本周我们请到两位朋友 , 来一起从 Manus 出发 , 用 20 个问题聊 Manus,但是不只聊 Manus, 我们更想聊的是 2025 年最热的话题之一 , 就是 AI Agent。
那这也是 《 十字路口 》 的 《20 问 》 这个专栏的第三期 。 前两期我们分别用 20 个问题聊了 DeepSeek 和 AI 视频大模型 。
那本周播客开始之前 ,有一点利益相关声明 。 我自己是蝴蝶效应 ,也就是 Monica 和 Manus 这个公司的顾问 ,也是他们上一家公司的早期天使投资人。
所以过去 9 年我和小红一直保持着专业的互动 ,也保持着友谊 , 所以我的观点难免有个人偏见的成分 。
好 , 再说回来 , 为什么我们用 "20 问 " 呢 ? 是因为我们认为 , 面对像 Manus 这样的一个爆炸性的产品 ,以及面对今年 AI Agent 这样的一个重要概念 , 我们非常需要一个结构化的思考框架 。
那这 20 个问题 , 它不是一次简单的知识的科普 ,而是我们有精心去编排的一个探讨的路径 。 我们希望从历史的脉络到技术突破 , 从现象的解读到未来预测 , 用这种问答的形式来帮十字路口的用户们在信息繁杂的当下, 建立起对 AI Agent 一个相对清晰而系统的认知 。
那尤其在 Manus 带来的热度稍微褪却之际 , 我们展开这个讨论 , 相信能够更加理性 、 更加全面 ,也没有被短期情绪所影响 。
那本周我们的第一位嘉宾 , 第一位朋友是郑灿 ,是线性资本的董事总经理 。 那郑灿从去年上半年就开始非常关注 AI Agent,他也在线性资本的公众号上发表过不少关于 Agent 的观点和文章 。
那又因为在投资的一线长期这个看各种各样的项目 , 所以郑灿接触了很多尝试在 AI 领域 , 所以郑灿接触了大量尝试在 Agent 领域创业的 AI 团队 ,有着一手的信息和洞察 。
那我们本周的第二位嘉宾是鸭哥 , 鸭哥是 Samsara 的应用科学家 ,也是哥伦比亚大学的博士 。他曾经在 Pinterest 和微软等公司工作 , 发表过接近 40 篇国际顶会的期刊论文 。
那鸭哥写了很多关于 AI 的博客 , 我们在十字路口的公众号也发过多篇鸭哥的文章 。 今天很有幸请到鸭哥 ,是因为在 Manus 发布之后, 鸭哥写了一篇非常高质量的关于 AI Agent 的内容 , 这篇内容的标题叫做 《Manus 爆火的背后 :Agentic AI 产品如何构筑持久的竞争优势 》。
那这篇文章 , 我们也有在前两天转载到十字路口的公众号 , 感兴趣的朋友可以去读一读 。 感谢二位的时间 , 来十字路口和我们分享这一期很硬核的内容 。
Agent定义3:55
好 , 那我们就从第一个问题开始 。 第一个问题是想问郑灿的 : 当我们在讨论 AI Agent 的时候 , 我们到底在讨论什么 ?
说到 AI Agent, 它的定义究竟是什么 ?
好 , 谢谢 Koji。 我觉得 Agent 实际上是一个很长以来在技术界就有的话题 , 或者一个概念 。 那从我的角度 ,其实 Agent 最根本的一个能力就是我们叫做 Autonomous, 就它能够自主地去做事 , 对吧 ?
那不管是说我有一个 Agent 自主地把一个事给做了 , 或者几个 Agent 各自擅长一些事情 ,他们结合起来把事做了 。
那所以 Autonomous 是它的要求 , 或者它最根本的性质 。 但在 Autonomous 的背后, 要使得这件事实现 ,其实典型的是几个能力 , 对吧 ?
那比如说它要有感知的能力 , 对吧 ? 它能够从外界获取输入 , 然后它能够使用工具这些 ,不然它就没法做事了 。
那当然背后还有一个是说 , 它要有一个 Planning 的能力 , 那尤其是做复杂问题的时候 , 它要有一个长程的 Planning 的能力 。
那这个可能对应到它底下的模型会提出一系列的要求 , 模型要有感知能力 , 对吧 ? 模型要有多模态的输出能力 , 模型要能够使用工具 , 模型要能够做长程的推理 。
所以根本上讲 , 我觉得对 Agent 我们有这样的一个要求 。 那另外的一个附带的要求是说 , 慢慢的 Agent 在做自己的工作之余 ,不叫之余 ,在做自己的工作当中, 慢慢的 Agent 在做自己的工作当中, 实际上它应该要越做越好 , 就它能够从过去的成功和错误当中去积累一些 Know-how Best Practice, 这个我们把它叫做 Self Evolve, 对吧 ?
它会自我进化 。 这根本上讲 , 对 Agent 的要求跟对人的要求其实是差不多的 , 就这么想就好了 。 包括很多对于 Agent 的能力也好 , 还有就是对于它的要求也好 ,其实也都是从人的专业分工当中去
得出来的一些架构的要求 , 或者能力的要求 。
我记得郑灿在去年 6 月就有过一篇文章 , 那篇文章里面提到 1000 个人的眼里有 1000 种 Agent, 所以这其实是一个非常泛的概念 。
所以当我们在聊 AI Agent 的时候 , 确实它是一个很复杂的 , 尤其在此时此刻吧 , 今天即便 Manus 发布 , 好像定义了一个新的 Agent 的范式 ,但是在此之外, 我觉得对它的这个讨论仍然是 , 就是可以说是略模糊的它的定义 。
对 ,但这个没关系 , 我们先把它放到一边 。 那我们来第二个问题 , 第二个问题是想问鸭哥 , 就请鸭哥带我们来复盘一下 ,在最近一年 2024 年,Agent 它的一些发展的脉络有哪些重大的突破 。
这是一个非常大的问题 。 我觉得 2024 年 Agentic AI 的发展可以主要分成三个方面 。 第一个是它的定义逐渐成熟 , 第二个是它的产品开始爆发 , 第三个是它的技术平台开始发展 。
那从定义的角度来说 , 像郑灿说的 1000 个人眼里有 1000 种 Agent,在 2024 年刚开始的时候 , 很多人都在说 Agentic AI、Agentic AI,但其实每个人定义都不一样 。
但是到 2024 年底的时候 ,Agentic AI 的定义基本上逐渐收敛到两个要素 : 第一是使用工具 , 第二是自主决策 。
虽然在这个基础上每一家还是有一些不同的解释 ,但是最基本的定义比年初要清晰很多了 。 那从产品的角度来说 ,有两个方向尤其引发了很多 Startup 和投资者的注意 。
第一个是调研类的产品 , 包括比如 Gemini、OpenAI、Perplexity 都发布了 , 甚至名字都一样 , 叫做 Deep Research 的产品 。 它都号称我可以用 Agentic 的方式像人类一样帮助用户浏览互联网 , 给出有深度的回答 。
那第二种是生成类的产品 , 包括 Cursor、Windsurf 这样的 Human in the Loop 的 Agentic 编程产品 , 或者 Devin 这种更加 Hands-off 的构建工具 ,以及像比如 Gamma 这样用来做 PowerPoint 的生成工具 。
那在 2024 年, 这两类产品都有了快速发展和规模增长 。 从技术的角度来说 ,Agentic AI 的构建工具也开始爆发 , 尤其是在 Orchestration 方面 。
那有意思的是 , 每一个工具背后其实都代表了他们团队对于 Agentic AI 的一种不同的认知 。 比如说微软的 AutoGen, 它是一个最老牌 、 最经典的 Agentic 开发的 Framework, 那它强调所有的东西都可以用一个异步的 、 基于订阅的消息流的模式来表达 。
而从 LangChain 发展出来的 LangGraph, 它则强调所有的 Agent 都可以用一个图来描述 。 那另一个方面 ,Hugging Face 的 Small Agent, 它特别强调说所有的 Agent 都可以用一个 Coding Agent 来表达 。
所以不管是在定义还是产品还是技术方面 , 我觉得 Agentic AI 在 2024 年都有了更多的确定性 ,也有了更大的活力 。
我们的第三个问题是在 Manus 发布的时候 ,他们提到一个标准 ,也是这个标准好像是衡量 Agent 的一个重要标准 , 叫 GAIA。
麻烦鸭哥来给大家介绍一下 GAIA, 它是一个什么标准 , 为什么大家都在选择这个标准来衡量 AI Agent。
这是一个蛮有趣的问题 。GAIA 是 2023 年底的时候 Meta 和 Hugging Face 领导提出来的一个基准测试 , 叫做 General AI Assistant, 缩写就是 GAIA。
这是一个希腊语 , 意思是地球 ,也有英语国家的人读成 GAIA。 这是挺有 insight 的一个测试 。 那背景是这样的 , 当时 AI 发展有一个潮流是说 GPT-4 做了什么什么入学考试题得分很高 , 又做了什么律师考试题得分很高 , 这就引发了当时 AI 研究人员的一个思考 , 就是讲 AI 到底应不应该往做题家的方向发展 。
那考试做题厉害是说明 AI 记忆力好 , 可以把这些法律条文 、 常见题型都背下来 , 还是说它真的能举一反三 , 能推理有很高的智能呢 ?
从这个角度出发 ,他们就设计了 GAIA 这个基准测试 。 那 GAIA 里面的题目主要不强调要记住什么东西 ,而是要强调推理能力 、 多模态 、 网页浏览以及其他工具使用的能力 。
它对人来说都是非常简单的 , 你哪怕是个普通人都能很容易达到比如 92% 的正确率 。 但是即使是当时最先进的 AI, 可以调用工具的 GPT-4 也只能达到 15%。
所以它就被用来作为一个衡量 AI 智能程度的基准 。 同时又因为它牵扯到工具使用 、 多模态理解 , 所以很多时候也被用来衡量 Agentic AI 的综合能力 。
但是到这里故事还没完 ,在做题之外 ,其实衡量 AI 的能力还有一个挑战 , 就是数据泄露 。AI 的训练它是不断进行的 。
如果你把一个基准测试在互联网上把题目跟答案都公开 , 那一不小心它就被纳入了 AI 的训练数据集里面了 。
到最后 AI 又变成了背题目 ,而不是真的通过自己的推理能力来得到答案 。 那为了避免这种情况 ,他们把这 400 多道题分成了两部分 , 一部分包含 300 道题 , 这个是测试集 , 只公布了题目 , 没有公布答案 , 所以你没有办法用它来训练 。
另外 160 多道是验证集 , 同时公布了题目和答案 , 你可以在上面调参 。 同时为了让整个测试的过程能够自动化 , 这些题目都是客观题 ,也就是可以通过电脑程序来验证的 , 它没什么歧义 。
所以你可以看见它的各种设计 , 包括题型的设计 、 对数据泄露的抵抗 , 这它确实是一个不错的能够衡量 Agentic AI 能力的基准测试 。
这是为什么很多公司和产品都在它上面来测试自己的 Agentic AI 能力的原因 。 但是这并不代表它是一个完美的测试 , 它也有一些坑 。
第一个坑是因为它有验证集和测试集 , 所以你看各个公司公布结果的时候 , 要留个心眼 , 看看它到底是在验证集上的结果 , 还是测试集上的结果 。
比如包括 OpenAI 和 Manus 在内 ,他们说我在 GAIA 上面得到了一个 State of the Art 的结果 , 世界第一 , 这个都是在那个 160 道题的验证集上面的结果 。他们其实并没有向官方提交测试集上的结果 , 或者是俗称的打搒 。
换言之 ,他们这个分数没有出现在 Hugging Face 的 Leaderboard 上, 这引发了一定程度的争议 。 但是我也可以理解 ,因为打搒和刷分对公司来说 , 只是一个了解自己的手段 , 或者我做 marketing 的手段 , 它不是一个最终的目的 。
所以把它放在低优先级的情况也是可以理解的 。 另一方面 ,GAIA 它的测试是相对偏简单的 , 只要一两步就能做出来的场景 。
这对于现在越来越流行的那种长期记忆 、 大 Context Window 的 AI, 就不太能测出来它们的优势 。 所以像我个人觉得很有前途的 , 比如说我叫它 Endless Learning, 花几天 、 几周的时间去彻底理解一个复杂的代码库或者知识库 , 像这种更前沿的方向 ,GAIA 就有点力不从心了 。
这里郑灿有什么补充吗 ?
对 , 鸭哥说的很对 , 就其实 GAIA 这样的标准本质上讲就是希望去衡量 ,因为我们需要 AI 去实际上解决复杂的问题 , 或者做一个事 , 对吧 ?
比起说做题家 ,其实说白了我把所有的题都背下来我就能做了 。其实当时 GAIA 的提出就是为了解决说 AI 会做题但不会做事 , 或者说会做见过的题或者类似的题 ,不会做没见过的题 , 或者我们现实当中碰到的问题这样的问题的 。
然后 GAIA 是一个相对比较完整的测试集 , 它这个测试的一个我们刚才讲 Agent 的多方面的能力 , 对吧 ? 多模态的理解和使用工具和一些长程的规划 。其实类似的还有一个专门去解决说 AI 是背题还是真的思考的一个测试集 , 叫做 Arc。
那这个是用来专门解决推理问题 , 或者说测试模型推理能力的这样一个测试集 。 就这些测试集 , 就 Arc 的一个很大的特点就是你完全不可能通过背题来解决问题 ,因为它的每一道题的这个类型其实你可以认为都不太一样 ,但实际上都是人类特别简单都可以解的 。
比如说这个给你四个不同的形状 , 然后让你去猜第五个形状应该是什么 , 就是小时候大家都做过的智力题 。
那像这一类的测试其实就是为了解决当时这个
模型容易陷入的第一个 , 就是模型能力本身的限制跟模型实际上在刷搒当中体现出来的高水平之间的矛盾 , 就希望去把它的真实能力能够测试出来的这样的测试集 。
好 , 那我们继续到第四个问题 。 第四个问题是关于 MCP。 那 Anthropic 在去年 11 月发了 MCP 之后, 非常快就让 MCP 成了 Agent 的某种行业标准了 。
然后这里的这个问题 , 第一是想鸭哥来给大家科普一下 MCP 是什么 , 第二也是我想很多人都会好奇的问题 , 为什么它在短短的时间之内就赢了 。
赢了的意思是说它就好像已经成了某种意义的行业标准了 。
要回答 MCP 是什么这个问题 , 我们得先了解一下为什么会有 MCP, 或者叫 Model Context Protocol 这个东西的出现 。
这个东西出现最直接的原因是市场上有一大堆大模型 ,但是各家对于工具调用这个格式都不一样 。
比如说 OpenAI 它用的是一种基于 JSON 的格式 , 你用 JSON 跟它说我有个工具叫 ABC, 它能干这件事 , 输入格式是这样的 , 类型是那样的 , 通过这种方式来告诉 GPT 你可以调用什么样的工具 。Anthropic 格式跟它类似 ,但是细节上有一些不同 。
如果你直接把 OpenAI 的代码拿过去用的话 , 它可能会挂掉 , 尤其是对于 Reasoning Model, 它的安全处理方式上有一些细节不一样 。
那 Gemini 则完全是另外一种格式 。 所以如果你想要让不同的 LLM 可以使用哪怕同一个工具的话 , 都要去记忆和开发多种彼此不兼容的工具描述 。
那这就是一个痛点 , 它让开发者拖慢了产品上线的节奏 。 那为了解决这个问题 , 各家都在想有没有一种方法能够打通这种不同的模型 。
我做一个统一的格式出来 , 就像现在的 HTTP 协议一样 , 我能用一种通用协议把模型怎么调用工具这个核心交互给统一起来 。
这是一种入口 , 一个标准 , 对公司的竞争是很有好处的 ,而同时它也确实解决了开发者的痛点 。 我现在一字编码到处执行 , 这就是 MCP 背后的核心动机 。
那其实 MCP 也不是市场上唯一的这样的协议 , 比如说 Open Web UI 使用的是一种基于纯 Python 的协议 , 像 Pydantic AI 它是基于 Python 的 Decoder 用代码来实现这样的协议 。MCP 是 Anthropic,也就是 Claude 背后的母公司对这个标准协议给出的答案 。
所以你可以看见 MCP 它不是市场上唯一的玩家 。 要讨论它的竞争优势和劣势 , 我们得首先退一步 , 看看这样一个协议什么叫好 , 什么叫坏 , 它成功的标准到底是什么 。
具体的说 , 我觉得这里面包含四个维度 。 第一个维度是它需要有一定程度的抽象 Abstraction, 这其实就是这种工具调用协议出现的最初的动机 。
我希望不改代码 , 直接就能无缝适配各个流行的 LLM。 但是在这个基础上, 它还需要有另外一个维度 , 就是它的表达力要够强 。
因为不论是使用什么样的工具 , 还是说我用一定的模板来生成 Prompt, 或者我有时候希望 LLM 在调用这个工具的时候 , 我还能得到这个工具的一些反馈 。
如果这里面有哪些功能这个协议实现不了的话 , 我可能就不用了 , 我就去换一种更灵活的协议去实现 。
所以表达力和灵活性也是非常重要的方面 。 第三个维度是易用性 。 这里面讲一个典型的反例 ,LangChain。 如果你用 LangChain 做过比较复杂的开发的话 , 会发现它虽然确实做了抽象 , 确实表达性很强 ,但这个抽象有点过火 ,有点 Over Abstraction。
比如说我要加一个自定义的功能 , 经常我要跟进 800 个抽象类才能找到要改这里的代码 。 所以这个易用性对于协议的竞争也是非常重要的 。
第四个方面是可调式性 , 这个需要协议本身有良好的可视化或者结构简单等等特性 , 出了问题能够快速定位 。MCP 它好就好在在这几个维度上都实现了比较好的 Trade-off, 比如说它提供了足够的抽象程度 ,但又没有过度抽象 ,以至于到了伤害 Debug 的能力 。
没有这样 , 它的表达力够强 ,不仅支持比如资源 、 提示词 、 工具等等功能 , 甚至还能通过 Sampling 这样的功能 , 让工具可以反向调用 LLM 来实行一些操作 , 别的协议没见过 。
与此同时, 它又没有变得过分臃肿和难用 , 所以总的来说它在技术上是一个 OK 的协议 。 同时它背靠着 Anthropic, 这是一个足够强势 、 资源雄厚的公司 , 对于很多开发者或者生态伙伴来说 , 这是非常重要的 ,因为它往往意味着更深刻的领域直觉和更稳定的支持 。
所以当市场上还没有一个有着压倒性的技术优势的协议的时候 , 大家就会倾向使用这种有资源而且可靠的产品 , 最终就形成了事实上的标准 。
这其实就是标准之争里面一个很常见的现象 ,不是说因为 MCP 技术上最完美 , 所以大家都用它 ,而是因为它先占据了市场先机 , 凝聚了生态力量 , 它这个本身的认可度又带来了正向循环 , 所以目前占据了市场上的领先地位 。
但是还是有一点要注意 , 虽然 MCP 现在被大家普遍使用 ,但是技术上它还是有一些改进的空间 ,其中比如过度抽象和 Debug 不便是两个显而易见的痛点 。
它虽然自己带了一个 Inspector,但是相比于其他协议来说 , 还是比较难定位问题到底出在哪 。 所以我们现在说 MCP 赢了 , 更多的指的是它抓住了当前的时机和市场共识 ,在竞争中间有一些先机 。在有了这层地位之后, 如果它能够继续持续迭代升级 , 倾听社区反馈 ,有可能真的就能巩固成行业上的通用协议 , 否则以后也是有可能出现其他的竞争者 。
其实看到 MCP 的时候 , 我想起之前看过的一本书 , 这是 Bill Gates 某一年他的年度书单中的一本 , 叫做 《 集装箱改变世界 》。
这个书在讲的是集装箱的历史 , 这个书确实很有趣 。 我看之前都没有想过 ,其实集装箱的标准也是经过了大量的这个博弈 , 商业上的 、 政治上的 , 最终形成了今天这个样子 。
而且这个博弈也离我们现在蛮近的 ,是从上个世纪 50 年代 , 就是新中国成立之后, 这个博弈这个标准的设立才开始 。
因为在之前大家这个在轮船上或在货车上运东西 ,在火车上运东西是就是比较随意的 , 就是挤麻袋东西就扛上轮船开始运了 。
然后直到 50 年代开始 ,有商就有公司开始去尝试搞一个统一尺寸的集装箱 ,但是每个人都想成为这个标准的制定者 。
所以这本书在讲的就是大家如何去争夺这个最终的标准的定义权 。 过了 30 年吧 , 就到 80 年代的时候 , 然后延续到今天 , 现在的这个国际货运的标准已经统一下来了 。
所以不管是轮船 、 火车 , 甚至卡车 , 都是在采用唯一的一套集装箱的尺寸 。 这个也很像当年秦始皇在统一度量衡一样 , 用这种方式来降低贸易摩擦 , 来改变这个全球化的进程 。
对 , 就看到 MCP 的时候 , 我想到这本书还是蛮有趣的 。 那我们再继续第五个问题 。 第五个问题想问一下郑灿 , 我们看到 Agent 会认为这是 AI 2C 产品在 ChatBot 之后的一次模式的一个交互范式的一个这个新的革命 。
那在你看来 ,Manus 为代表的 AI Agent, 它在推理能力上相比现在的 LLM, 比如说不管是 4.0 还是 Claude 3.7, 你觉得有哪些关键的突破吗 ?
我觉得这里面可能我们还是得先分清楚几个概念 , 就是
Manus 它是一个 Agent 产品 , 对吧 ? 然后它的各项工作从 Plan, 就从规划到这个执行到验证 , 实际上都依赖模型 。
然后换句话说 , 实际上它的推理能力来源于模型本身的推理能力 。 就是所以有 , 就所以我想把 Manus 本身跟这个模型 , 跟包括我们在说这个 OpenAI 的时候 , 这个我们容易把模型跟 ChatGPT 那个产品合到一起去 , 对吧 ?
其实也是两回事 , 对吧 ? 所以如果我们只是说推理能力的话 , 我们可以认为推理能力基本上来源于模型本身 , 对吧 ?
而且从去年到今年, 其实模型在推理上发生了巨大的变化 , 就我们之前讲的嘛 , 就去年年底盘点 , 盘点完之后我们说需要推理模型 , 模型的推理能力要加强 , 然后就被嗨了一脸 , 对吧 ?
有 DeepSeek, 然后这个去年其实有强推理能力的可能只有 O1, 然后今天我们就有 DeepSeek, 然后还有这个 Anthropic Thinking, 还有 Gemini Thinking, 就其实大家都出了自己的推理模型 。
那么其实坦白讲 , 就像 Manus 这样的产品 , 就能够有长程的推理能力 , 或者有能够把一个事从头到尾的规划完 , 对吧 ?
大家看到它规划的那个 Task List,其实这个很大程度上是来源于这个模型的推理能力的提升 。
那么当然就是回过头 , 就其实要做 , 就今天的模型本身还不够强 , 这个推理能力 , 我们可能晚一点会聊到说模型的推理能力还有很多欠缺的地方 , 然后模型本身还有出错的可能性 。
那以至于说如果我要干十步 , 那每一步我都有可能有那么一点点可能失败的话 , 十步下来基本上这个事情就飞了 , 对吧 ?
那 Manus 的很大的一个贡献在于说我怎么保证
这个事在一个长的过程当中不至于飞掉 , 就不至于做到就完全都不知道做去哪了 。 那这里边其实我们讲说它需要在有规划 、 有执行 , 很重要的还有反思 。
那这可能就是我们说如果把 Manus 这个产品拿出来 , 这个很大的一部分说它就是需要在一个底下还不太确定的基础上, 我要把这个事最后以一个相对确定的方式 , 达到目标的方式去给完成了它需要做的工作 。
对 ,但这里边就是我觉得比起去年,
已经有了很大的变化了 。 就是在去年的话 ,其实可能你做一个规划 , 然后规划完了之后规划错了 , 你反思 , 反思又错了 , 反思完了 , 假设你反思对了 , 再回来重新规划 , 可能又错了 , 对吧 ?
就其实这是个就每一步的成功率只要提高 5%, 咱们随便说从 85 到 90, 实际上你最后的失败率是大幅的降低的 ,因为你最后可能是无数个好多个 85% 乘起来 , 比起好多个 90% 乘起来 。
Manus揭秘27:08
对 ,其实我们这里已经聊到 Manus 了 , 那就进到我们第二个大部分 , 就是来聊一聊 Manus。 那之前这个明昊老师在 《 屠龙之术 》 的播客里面也有一期内容叫 《Manus 没有秘密 》, 我觉得这个标题起得非常好 。
这也是我的感受 ,因为 Manus 团队从一开始就很主动的在和大家沟通他们的这个种种设想 , 甚至一些这个就是操作 Manus 的细节 。
那我们想问的第六个问题是这样的 , 就是我看到鸭哥在好几个地方都提到 Manus 充满了启发 , 所以想问鸭哥 , 就是你得到了哪些启发 ,而这里面什么启发是让你感觉最惊艳的 ?
在回答这个问题之前 , 我想先解释一下 Manus 不让我感到惊艳的地方是什么 。其实和很多自媒体渲染的情况相反 ,Manus 的出现不是一个石头缝里蹦出来的那种完全无迹可寻的东西 。
相反 , 像我们前面曾经提到过的 ,2024 年我们其实已经看到了两种类似的产品 , 一种是像 Deep Research 这样做调研类的产品 , 一种是像 Cursor 或者 Devin 这样做代码生成类的产品 。Manus 从 Feature 的角度来说 , 一个简单的理解方式是它把这两种已经有的产品揉到了一起 ,但其实这件事比看上去的要更重要一些 ,因为它彻底改变了用户的使用体验 。
那比如说我现在没有 Manus, 我想做一些调研 , 然后把结果给可视化出来 , 这是一个很典型而且简单的需求 , 对吧 ?
但是如果没有 Manus, 我就要去先去思考一个问题 , 我怎么样去拆解我的任务 , 才能让每一个任务足够独立来分给 AI 去做 ,以及每一个子任务我用什么工具来做最好呢 ?
我要怎么设计各个子任务之间的接口来让它们适当的分割呢 ? 举个例子 , 比如我可能会把调研交给 OpenAI Deep Research 来做 , 先拿到一个报告 , 然后再把这个报告拷到 ChatGPT 里面进行分解 , 生成面向 Cursor 的 Prompt, 然后再把一个个 Prompt 贴给 Cursor, 让它生成代码 , 最终运行程序得到可视化的结果 。
但是有了 Manus 以后, 我要思考的东西就少了很多 , 我只要把这所有的东西一下全部扔给 Manus 就可以了 。
我现在精力主要花在怎么让 Manus 尽可能详细的知道我的思路是什么 , 背景是什么 , 目标是什么 , 剩下怎么去分割问题 , 怎么去执行 , 让它去做就好了 。
那这个使用体验比以前就高了很多 。 另一个方面是 Manus 这个产品 , 它的完成度也很高 。 比如说其实我之前也做过类似的 Agentic AI 的东西去帮我做调研 ,但是一个很大的痛点是我抓数据的时候 , 很多时候抓着抓着就被当成 Bot 把我给禁了 , 封掉了 。
但是 Manus 包括像类似的 Devin, 它都没有这样的问题 。 即使是面对比如像 Zillow 这样有相当严格的反 Bot 机制的公司 , 它也能把数据给下载下来 , 或者像知乎这样的 , 它也能正常抓取 。
这些都让它整体的可用性变得很高 。 所以回到最初的问题 , 我觉得 Manus 让我惊艳的地方主要是它把 Agentic AI 这个初衷完成的特别好 ,也就是说我专心去定义问题 ,AI 去自主执行 , 这样就能让我用最短的时间 、 最短的链路来达到目标 。
这个是我作为用户最关心的事情 。
其实很多人也会吐槽说 Manus 没有创新 , 所以第七个问题想问一下郑灿 , 就是在你看来 Manus 它有没有创新 ?
如果有的话 , 你认为它的核心创新是什么 ?
我觉得从一个很简单的角度去讲这个问题 , 就把那么多的工具和能力能够融合到一起 , 提供一个之前从来没有过的体验 。
就我觉得这个本身就是一种创新 , 就其实这个才是我们说产品最需要的创新 , 对吧 ? 它里面有可能有各种各样的模型 ,其实刚才鸭哥讲的 , 对吧 ?
我可能有一个复杂的工作流 , 这工作流里面我需要用到各种各样的工具 , 我要用到 Browser, 我可能用到图像的理解 , 我可能用到图像的生成 , 我可能用到这个这个 ,而且在 Browser Use 当中我可能是抓取 , 对吧 ?
那可能我还得反爬 , 反爬本身我可能就得有能力去读 Capture, 就读那个叫什么验证图 , 就这里面其实是很多不同的工具 , 然后我得把它们融合到一起去 ,并且让它不出错 , 成功的达到我的目标 。
这件事情是非常强的产品力 。 就我们之前其实聊过 , 我记得我们上一期聊过什么是产品力 。
那产品力我觉得 , 我一直觉得是让我用最简单的交互 , 刚刚好达到我要的效果 , 对吧 ? 就这实际上就是产品力的体现 。
那在这里我觉得 Manus 的目标和它 , 就和它我们说核心的贡献或者叫创新 ,其实是一回事 , 就是让我能够 Hands Free, 然后去完成一个那么复杂的问题 。
而且这个体验之前从来没有人提供过 。 而且我觉得有一个事大家不要忽视 , 就是今天的产品的核心是大模型 , 没错
, 然后大模型的能力的提升提高了 Manus 这一类产品的上限也没错 ,但问题是大模型本质上是不可控的 。
就我们一直在说 , 就大模型的能力的提升是说它出错的 , 就它做对的 , 它的能力越来越强 , 它
怎么说呢 , 就是它的能力在越来越强 ,但本质上它依然不可控 , 它每一步都有可能出错 , 对吧 ?
在不可控的东西上面 , 我提交产品的时候 , 我做一个产品 ,但这个产品是不能说对不起 , 这个 OpenAI 或者这个 GPT 出错了 , 所以你这个报告没有了 , 对吧 ?
你的产品用户是不可能接受这个答案的 。 那这背后其实是大量的工作 , 然后这些工作在每一个新的产品形态上都需要有人先来做 。
就 Cursor 本质上我们说它做的工作也是类似于这样的工作 ,Loveable Bolt。Bolt.new, 对吧 ? 它们做的工作其实或者叫提供的价值 , 提供的创新其实都是这一类的创新 , 尤其至少在它们 Day One 的时候 。
我觉得这点上这个 Manus 提供了 , 这个 Manus 做出来的创新是一个性质 , 一个类型的创新 。
对 , 我看到 Manus 的时候有两个 Aha moment, 这两个 Aha moment 都让我觉得它特别像一个人, 就它像一个真的 Agent。 第一个是它会让你看见它在干嘛 , 就像一个同事 ,他不断的在向你汇报 , 事无巨细的汇报他在干嘛 。
你可以看到他在吐字 , 可以看到他在推理 , 可以看到他在执行某一个任务 , 甚至还可以看到他拉了一个 ToDo list, 做了一项划掉一项 。
这个是一个就是让你觉得这个同事在认认真真 , 兢兢业业的干好每一个细节的感受 , 这是第一点 。
那第二个 Aha moment 是 ,在任务进行的过程当中, 可以随时和 Manus 去对话 。 大家知道 Manus 一个任务有可能会做个 10 分钟 、20 分钟 , 甚至 30 分钟 , 然后你如果等的不耐烦了 , 你可以去问他说你在干嘛 , 为什么那么拖拉 , 然后他也不会停下他手头的任务 。他会就是好像你去问一个同事一样 ,他会转过身给你说一句你不要着急 , 我正在做什么什么什么 , 大概还要
多久 。 这个是我当时觉得还挺这个 Aha 的两个 moment。
对对 ,但就我觉得 Manus 跟 Deep Research 的区别是说 Manus 不光能做 Deep Research 这样的 Research 工作了 , 它还有很多这个别的生成向的工作它也可以去做 。
对 , 就像鸭哥在第二个问题的时候提到的 ,Agent 的产品有两类这个 Use Case, 一类是调研类 , 另外一类是生成类 。
调研类就是作为 Port, 这个 Deep Research 和 Manus 都可以 , 然后在生成类之前可能更多是生成代码 , 生成 PPT, 那这个现在 Manus 也可以 。
那这个确实也是 , 就 Manus 它作为一个通用型的 AI Agent,在一开始出场的时候 , 大家这个对它期待很高 , 评价也不错的一个原因吧 。
是的 ,有很多很酷炫的工作本身是需要生成的嘛 。
好 , 那我们再来第八个问题 , 第八个问题问鸭哥 , 就 Manus 让我们看到了 AI Agent 是一个有复利的东西 , 这也是你在一篇文章里面提到的 , 你讲到了三种复利 , 分别是工具的复利 、 数据的复利和智能的复利 , 可不可以给我们展开讲一讲 ?
对 , 我觉得其实刚才聊到的 Manus 惊艳的地方 , 它的背后还有很多值得分析的东西 ,其中一个让我觉得尤其有启发 , 就是复利 (Compounding Fact), 这个比较值得详细讨论一下 。
你看 Agentic AI 为什么大家都觉得它很厉害 , 为什么要花时间去做 , 我觉得主要就是因为这个复利 。
复利一般指的是一个东西它有积累的效应 , 你投入的越早 , 后期获得的回报就越大 , 或者说它的增长像一个指数曲线一样 , 增长的越来越快 。Agentic AI 就有这样一个好的特性 , 尤其是我觉得在三个维度上有复利 , 一个是工具的复利 , 一个是数据的复利 , 还有一个是智能的复利 。
注意这三个维度不是说平行相加的 , 它们彼此像乘法一样是彼此放大的 。 那我们首先讨论一下工具的复利这件事 ,因为它最容易理解 ,也是 Manus 好用的关键 。Agent 的一个核心能力就是它可以调用工具 ,但是能调用两个工具的 Agent 和能调用 10 个工具的 Agent, 它能提供的价值是远远不一样的 。
这主要是因为当你为 Agent 加一个可以调用的工具的时候 , 如果它本身已经有了丰富的配套工具 , 那么新的工具和旧的工具之间可以组合 , 带来更多爆炸式的体验提升 。
那举个简单的例子 , 比如最早当 Agent 只能搜索和写代码的时候 , 我们额外加一个生成报告的插件 , 可能也就是最后一步把已有的结果包装一下 。
但是如果我们的 AI 同时还懂我做可视化 , 我怎么做幻灯片 , 还能做网站 , 这个时候我们往里加一个生成报告或者图像搜索的工具 , 一下就能引爆很多的创作方式 , 就让 AI 真正的从调研到内容发布一步到位 。
所以 Manus 能火 , 工具的复利在里面起了很大的作用 。 但是其实在背后还有两个可能更重要的因素 , 工具这个复利光看它本身有一个问题 , 就是很容易抄 , 比如我是一个 Manus 竞争对手 , 我想抄 Manus, 这件事其实并不难 。
那如果我是 Manus, 我怎么避免让人家抄走呢 ? 这就要提到数据的复利 。 这里的数据不是指那种大模型预训练 , 那种海量的 Token,而指的是 Agent 和用户在长期协作的过程中沉淀下来的数据库 。
这个数据库一旦被整理和外化 , 变成显示的文档 , 就能让 AI 在后续的交互中更快的锁定问题 , 少走弯路 ,也更能理解用户想要啥 。
那这就好比比如说工厂里面一个老师傅 ,他一拍机器我就知道问题在哪 , 新手我还得挨个零件去检查 , 最后还不一定能查到原因 。
这就是因为老师傅他长期积累归纳出来的工作流程 、 产品历史 、 之前试过哪些方案 、 成功率怎么样 ,他都积累下来了 。在这个积累的基础上 ,他排查问题的效率就高很多 。
那对 AI 来说 , 它给用户的感觉就是 AI 很懂我 ,AI 跟我有默契 , 我一说是什么问题它就知道是什么原因 。
这会构成一个正向循环 , 这个 Agent 本身会越用越顺手 ,因为它学到了更多的背景知识 , 又让用户越来越愿意把更多的数据共享给它 ,因为这样产出成效也会有明显提升 。
所以数据这种像知识库的积累 ,是更重要也是更难构建的一种复利模式 。 如果一个产品能够在端到端的形态里面 , 每个环节都能利用好 , 积累好这些数据 , 自然而然就会构成一个核心壁垒 。
那我想说的最后一点是智能的复利 , 很多人容易忽略 ,但其实 Agentic AI 这种自主思考的程度 ,也是会随着工具和数据的增长而放大的 。
比如说一个没有那么聪明的模型 , 可能只能机械的根据一些预置的指令去搜索网页 、 罗列结果 , 再拼接成一个报告 。
但如果它的推理和举一反三的能力足够强 , 它就会有能力根据搜索结果及时调整策略 , 比如说我调整关键字 , 或者是预判你后面可能需要啥额外的资料 、 分析的维度 , 从而自主的去决定去发掘更多的资源 。
像这种真正聪明的 Agent, 它还有可能跟用户对话式的来回修正目标 , 它能懂虽然你表面想问的是 A,其实内心想的是 B, 这种更高层次的思维能力 , 像有时候我在 O1 Pro 这类的模型里面已经体会到了 , 它非常重要 。
它就像一个催化剂一样 , 可以让工具和数据带来的增长变得更加高效 。 所以说 , 如果一个企业有能力进行这种级别的 LLM 的研发或者 Fine Tuning 的话 , 它就可以构成一个工具调度 、 知识积累和智能提升的一个闭环 。
我想强调的是 , 归根结底这三种复利是相互激发的 ,也就是我们之前说的乘法 , 比如说更多的工具可能会产生更多可以沉淀的数据 , 更丰富的数据就能进一步支持更高阶的智能训练和发挥 。
而反过来 , 它又提升了对多种工具的组合效率 。 所以说一个好的产品在竞争的时候 , 应当尽可能的走到这些复利曲线的右边 , 从而有效的构建壁垒 , 那站到一个能够让复利快速显现的节点上, 从而实现爆发 。
对 , 我觉得这个总结的非常的全面 , 然后这篇文章也是我看到鸭哥发了之后, 就特别想请他来录这一期播客嘛 。
我觉得是很短的时间之内 , 就很犀利的总结出了一些我们在今天做 AI Agent 要如何做出壁垒 , 如何做出护城河的这个关键点 。
对 ,在这一点上我不知道郑灿会不会有一些从你的角度的补充 。
对 , 我觉得鸭哥说的非常好 。 本质上讲其实就是
这三件事 , 就工具 、 数据和智能的复利加在一起 , 实际上是能够让这个产品在使用的过程当中越来越多的去找到解决各种各样的问题的最好的方式 , 对吧 ?
这个黑话叫 Best Practice, 对吧 ? 我用什么样的工具去什么数据源 , 拿什么样的数据回来之后做什么样的处理 , 举个例子 , 对吧 ?
就这一类的 , 就这一类的 Know-how 实际上是 AI 没有的 , 或者我们叫模型本身没有的 , 这必须是在
像 Manus 这样的工具在被使用的过程当中去积累的 。其实像 Deep Research 也有一个很有意思的 , 就 OpenAI 的那个产品 , 这个 Deep Research 其实有一个类似的这样的工作 , 就你跟他提一个很简单的问题 , 比如说我需要一个什么样的报告 , 我需要一个
去年所有这个 YC 的公司的报告 , 对吧 ? 那他会问你说你想知道这些公司的什么方面 , 比如说你想知道他们的这个公司的名字 、 网址 、 这个他们的业务 、 他们的产品吗 ?
然后另外你希望我通过什么样的方式去分析 , 比如说他给你列三四个分析的方式 , 然后最后是让你去回答这几个问题 。其实这个时候就是在
向我要所谓的 Best Practice, 对吧 ? 当像我这样提这样的问题的人多了之后 ,他发现说 OK, 大家都希望用比如说这样的分析方式去分析 , 那慢慢的他就积累下来了我们刚刚讲的所谓 Best Practice, 就是在分析这样的公司的时候用这样的方式 , 对吧 ?
就其实一样 , 就是这个 Manus 的工作其实在当中会有很多个反馈点 , 这些反馈点就能够让他积累下来做这件事最好的一个方式 。
就我觉得这个才是这一类产品的护城河 。 对 , 所以 Koji 你正好讲到说你是小红之前的公司的天使投资人, 然后也是他们的这个 Advisor, 特别好奇从你的角度 , 这个你觉得为什么是他们做出了 Manus?
首先我一点都不意外, 我从他们这个想法的酝酿到最后发布 , 我可能唯一感到意外的就是没想到就这么火 , 引发了那么多后续的舆论 。
对 , 我觉得为什么不意外是因为就是极客上其实有一位叫 Erics 的一个之前在蝴蝶效应这个公司 ,也就是 Monica 和 Manus 这个公司工作过的同学 ,他发过的一条动态 , 我觉得引用他说的话非常能够解释为什么是小红他们和 HiCloud 和 Peak 他们这个核心团队做出了 Manus。
简单来说就是他们一直在一线积极的行动 , 非常有热情的尝试各种各样的可能性 。其实回头看也像 Erics 提到的 ,他们在前年的 9 到 10 月份就已经在国内去尝试了做 Agent 的各种方案当中, 一个最佳实践是 ToDo List 的那个 Markdown, 就大家看到这个今天 Manus 一开始就是会去做任务规划 , 会去拉一个 ToDo List 出来 , 这是让他去完成各种复杂任务的时候做到有条不紊 , 做
到一个步骤一个步骤这个严丝合缝 , 很像一个这个工作能力非常强的人在去完成一个井井有条的任务 。 然后到去年的 3 月份 , 这个 Monica 又做了 GPTs 这样的平台 , 然后去年一整年他们也都在尝试想要做一个和 Arc 一样的浏览器 , 那当然最后这个浏览器没有发布 ,因为没有找到商业的竞争的角度 ,但这过程中积累了很多浏览器相关的技术 , 这也在 Manus 他们
去给一个 Agent 上虚拟机去操作浏览器 , 就这一系列的这个底层的架构提供了非常好的实践基础吧 。 然后前年 11 月其实 Monica 就已经可以开始支持联网搜索 , 那这个其实也是给 Agent 去联网获取信息的能力奠定了很多基础 。
然后还有一些 , 比如说去年的 7 月份 Monica 做了一个 Roast 的产品 , 这个可能很多人是不知道的 ,但在海外这是一个刷屏的一个 Campaign, 这是类似 Twitter Personality 这样的一个增长项目 , 然后发出来之后也是非常快的病毒式的传播 。
这个过程中我相信这个团队也得到了很多社交媒体的这个流量的增长的经验 。 对 , 当时从这个项目发布到它破 100 万的 UV, 短短的时间其实我也这个当时看到了这个过程吧 ,也觉得非常非常的激动 , 就好久没有看到这样的刷屏 。
对 , 这其实也是去年 7 月份就有过的 。 然后对 , 所以刚才说的项目很多很杂 ,有大有小 , 每一个看起来好像都是比较薄弱的一环 ,也像一个一个的积木吧 。
但是这些积木就是组合在一起的时候 , 又在眼下这么一个市场窗口期 , 技术各个地方都在不断的进化 ,不断的成熟 , 就把这些边界上面的积木搭在一起的时候 , 就形成了一个很强的组合创新能力 。
对 , 这也很像这个王兴之前老喜欢说的这个有线游戏无限游戏吧 , 就是我们不要 Play in the boundary,而是要 Play with the boundary, 就是不要在边界之内玩 ,而是要努力的在边界之上玩 。
我觉得这个其实是蛮好的能够就解释 Manus 它虽然是套壳 ,但壳有壳的价值 ,因为它知道今天去套什么样的最新的在边界上面的各种积木 , 可以搭出一个用户体验足够好 、 解决问题足够解决问题的能力足够强的产品 。
那我觉得这最后总结吧 , 就是我觉得 Monica 团队前瞻的认知是有的 , 同时这个执行的速度是非常强的 , 所以才能够在这么一个关键的窗口期实现这样一个很突破性的产品出来 。
明白 。 我觉得很有意思的一点就是你刚才提到的 ,他们其实做了很多工具 , 就在 Monica 这个产品里面你也能看到很多工具 。
我觉得这个本身对于他们做 Manus 应该有很大的帮助 ,因为 Manus 当中我们刚刚说了 , 你要有一个工具的 Tool Use, 对吧 ?
就是要有使用工具的能力 。 那在 Monica 当中他们已经做了很多工具 , 那这些并且这些工具都是他们调教好的 , 对吧 ?
然后这个很少看到有 ,其实很少有另外一个公司有这么多产品级的工具 , 对吧 ? 所以我觉得这个对他们而言是一个也本身也是一个很大的优势 。
就是反正像个价值吧 , 就也是会想起乔布斯老爱说的那句话吧 , 就是 Connect the dots, 就连接历史上的各种点 。
就当你走过很多路之后, 你突然回头看发现我做的事情变成了一个一个的点 , 然后在某一个时间窗口就突然这些点可以连起来 , 那当它连起来之后, 很可能就是某种化学反应 , 就催化出了一些了不起的产品 。
对 , 觉得这是挺有意思的 。 那我们继续第十个问题 , 第十个问题也是想问一下鸭哥 , 我们知道这个 Manus 团队他们有一个在做 Manus 产品时候的理念叫做 Less Structure, More Intelligence, 就更少的架构 , 更多的智能 。
那可不可以请鸭哥来给我们讲一讲这个理念 , 这个方法它意味着什么 ?
这是一个蛮好的问题 。 这句话是一种实现 Agentic AI Trade-off 的方法 。 表面上看起来它的意思是说 , 我们给 AI 的工作流程更少的结构化约束的时候 , 这个 AI 就会体现出更高的智能 。
那比如说 AI 在执行任务的过程中间 , 我们尽量依赖它自己的认知和推理能力 ,而不是提前人为的说我分布脚本 、 我流程图或者状态机这样的逻辑去限制它 , 这样就可以让 AI 更聪明 。
但是我觉得其实它背后还有另外一种含义 , 是一种反过来的因果关系 。 也就是说对于更笨的模型来说 , 我们可能确实需要更多的结构化约束来让它不要跑偏 ,但是当模型变得更聪明的时候 , 我们就要减少结构化的约束 , 才能让它发挥出它的潜力 。
所以这整个背后的含义是这样的 , 针对不同的基础 LLM 和产品目标 , 我们应当在结构化约束方面使用不同的 Trade-off。
这个东西其实和 Agentic AI 本身的发展也是有关系的 。 比如说在 AI 发展的早期 , 我们一般会采取一种高结构化的思路 , 比如说 RAG,Retrieval Augmented Generation, 它就是个典型的例子 。
你看它工作流程是定死的 , 第一步做 Retrieval, 第二步构建 Prompt, 第三步让 LLM 生成 。 那这个 Prompt 模板 、 步骤列表甚至状态机事先定死的做法 , 它的好处显而易见 , 它更可控 , 尤其是早期 LLM 它自己不太会主动调用工具的时候 , 尤其重要 。
但坏处也很明显 , 就是你拿它跟现在的 Agentic AI 相比的话 , 很明显它牺牲了模型很多潜在的创造力 , 对于一些比较开放的场景也没有办法有效应对 。
但你看现在的 Agentic AI, 它为什么 Work? 它的核心是允许 AI 自主的决定下一步做什么 。 我到底是换一个关键字继续搜索呢 , 还是我就可以根据当前的搜索结果开始回答问题了 , 或者干脆直截了当告诉用户我搜不到 。
但这种 Less Structure 不仅仅是说我给你更好的结构化支撑 , 你就会自己就自然而然变聪明了 ,不是这样的 。
它的背后其实要下很多功夫 , 除了我们刚才说到的跟针对工具调用有更多训练的 LLM 以外, 它还牵扯到很多产品方面的知识 。
比如说尤其是对于 Agentic AI, 你的记忆处理的好不好 , 你的上下文窗口有没有有效管理 , 你有没有给 AI 足够的信息来让它合理的选择最合适的工具 , 这些都是非常建功利的地方 。
一旦做好了这些 , 我们就会发现整个用户体验上了一个台阶 , 我们自然而然就会往 Less Structure 这个方向走 。
而当我们到了 Less Structure 这个 Sweet Spot 以后, 用户的感受往往就像我在跟一个真正可以独立思考的智能体去沟通 ,而不是与一个按部就班的脚本去互动 。
所以这个 Less Structure, More Intelligence 更多的是当模型的智能程度和产品力到了一定阶段以后 ,在结构化约束方面 , 我们自然而然的就会向更少的方向发展 , 从而带来更好的体验 ,而不是说我拔苗助长 , 我强行的降低结构化支撑 , 就能让我们整个产品看起来更智能 。
它本质上是一种 Trade-off。
对 , 多说一句 , 我觉得这个其实是个很有意思的点 , 就是本质上讲我们经常说或者大家经常会问 , 就这个模型在不停的往前走 , 对吧 ?
做应用的朋友们这个怎么办 ? 会不会这个你今天做完了明天就不需要了 , 对吧 ? 就是经常被人问这个问题 , 尤其在大模型刚出来的时候 。
我觉得这里边的很大的一个点就是我们应该更多的去做发挥模型能力的事 , 对吧 ? 而不是去叫做限制模型能力或者控制模型能力的事 。
就这个换个角度看 , 就是说当模型越强 , 如果你的产品就越强 , 你就是一个你就不用太担心模型能力的提升这个问题 。
那其实这个哲学就是 Less Structure, More Intelligence 这个哲学本身就是这样的 , 对吧 ? 你花很多工作去 Structure 模型的工作方式 , 那么当模型聪明了不需要 Structure 的时候 , 你的代码就没用了 , 就你做的工作就没用了 ,因为模型自己也挺知道怎么去 Structure 它的工作的 。
就我觉得这是我觉得这个方法论背后的一个认知 , 就这个认知我觉得我是非常同意的 。
对 , 就是像说这个不断在发新的大模型的版本嘛 , 那当模型能力进化的时候 , 作为创业者你是感到兴奋还是感到焦虑 , 这就是很好的去考验自己做的产品到底有没有在模型之外的这个生存空间的一个问题 。
对啊 , 对 , 我觉得 Manus 本身是模型利好的一个结果 , 对吧 ? 就换句话说 , 没有过年之后的模型 ,在年前可能都没有办法达到这样的体验 。
行业竞争54:59
我们第二部分聊了 Manus, 然后我们再到第三部分想聊一下这个在 AI Agent 的竞争与行业的格局 。 那第十一个问题想问一下灿 , 就是你估计中国和硅谷的这些大厂们 , 哪一家会最先发一个类似于 Manus 的 AI Agent 类的产品 ?
对 , 这是个好问题 。 我们如果说的是一个这个针对我们说半专业或者说半专业应用 , 对吧 ? 针对半专业应用的这样的一个这个工具类的产品 ,AI Agent 的产品 , 那么其实我第一个想到的就会是字节 ,但好像我一觉醒来 , 字节已经发了一个 。
我觉得这个我还没核实过 , 我就我还没有看过那个产品长啥样 ,但我觉得你要问我的话 , 我会觉得字节是最理所当然的 ,因为他们在这类的这个半专业的 Agent 工具上其实做过很多工作 , 像 Coze, 像这个 Tria, 这些都是这个类似的方向上的工具 , 对吧 ?
然后其实另外一个可以看到的是 , 所有的模型厂商都出了自己的 Deep Research 相关的产品 ,不光是模型厂商 , 就是这个很多 AI 的这个大的初创企业 , 对吧 ?
也出了 , 像 Google 出了自己的 Deep Research,Perplexity、XAI 就都出了 , 对吧 ? 然后 OpenAI 本来就有 。 那从某种意义上我们刚才说这个它就是一个在调研角度的一个 AI Agent 产品 ,其实我用 Manus 更多是在用它的这个功能 。
对 , 所以我觉得其实大家可能都会做 ,但你说 Manus 擅长的其他的那种各种各样的具体 Task, 比如说最后这个帮我美化我的报告 , 这个出个顺便出个图 , 这些显然不是模型公司的目标 , 我不觉得他们会做这件事 。
但 OpenAI 做的工作也只是到我发一个工具箱 , 让大家更好的去做这方面的工作而已 。 但我觉得这的确不该是 ,也不该是模型公司的目标 , 尤其是海外 。
对 , 我其实看到这个从 OpenManus 到 OWL, 就猫头鹰那个单词 ,其实也有很多开源的框架在出来 , 就是非常非常的热闹 ,也很期待可以在这个领域看到更多新的产品和新的突破 , 甚至有一些新的交互范式 。
那我们在第十二个问题 , 就是肯定 Manus 发布之前本来 AI Agent 就很火 , 它发布之后一定会有更多的人想在这个领域来创业 。
那灿你应该也聊了不少的这个 Startup, 你有看到大家目前做 AI Agent 的话 , 主要是在做哪些方向 ?
对 , 我觉得
很明确的几个方向是类似于像 Coding, 像这个 Sales 的这个整个 Pipeline, 比如说 Lead Gen, 对吧 ? 很典型的 ,因为这里面我觉得几个点 , 第一个是原来可能成本很高 , 这个而且可能需要这个大量的重复劳动 , 或者对吧 ?
然后还是需要有 Know-how 的人的重复劳动 ,不是这个 20 块钱一个小时最低工资朋友们的这个重复劳动 , 对吧 ?
那最后就是它的价值很高 , 或者离钱很近 , 这有时候是货了 , 就 Coding 不一定离钱近 ,但它价值高 , 对吧 ?
然后 Sales Leads, 那它离钱近 , 对 ,而且价值高 。 对 , 所以像这些方向我觉得大家做工作 , 或者说 Startup 做工作是比较多的 。
还有一个点是说它要么容易验证 , 我觉得 Coding 本身是一个比较容易验证的事情 , 对吧 ? 这个你可以通过 Debug 那些去确定它的工作做得怎么样 , 要么它有一定的容错性 , 就是 Lead Generation, 你 Generate 100 个 Leads 给我 ,其中有 10 个 Leads 不太 Work, 我可能也能接受 , 对吧 ?
因为这个回过头就是今天我们说 Model 本身还有很大的提升空间 , 它的工作这个存在一定它的工作的结果有一定的不确定性 。
我觉得这些导致说真正你需要它一定成功 , 要有很高成功率的事情 , 可能今天还未必合适 , 或者说大家还在探索 。
对 ,其实包括像调研报告也是一样的 , 就是你说你给我一个调研报告当中有一些问题 , 或者你的一系列调研报告当中有一个当中有一些质量问题 ,其实大家是能接受的 , 对吧 ?
因为本质上讲你已经替我省了很多钱了 , 然后我要做的无非是打回去你重新再把那一份给我做一遍嘛 。
就像这一些都是能接受的 , 然后也是大家我们看到大家工作做的比较多的 。
对 , 那我们第十三个问题 , 我们再来聊一下现在既然那么多人在创业想要做 AI Agent, 那也想问问鸭哥 , 就是从长远来看 , 做一个 Agentic AI 的这一类的产品核心竞争点是什么 ?
哪些要素是可能可以构成真正的竞争壁垒的 ? 那哪些要素呢 ,在你看来是成不了这个护城河的 ?
这是一个很好的问题 , 我也花了很多时间来想这个问题 。 如果我是 Manus 的竞争者 , 我怎么样超才能最快的把它超过来 ?
那如果我是 Manus 团队 , 我怎么样才能构建自己的护城河不让人家超 ? 我觉得这个问题的答案可以归根结底回到我们之前说的三种复利上面去 。
首先从工具的复利角度来说 , 要想取得竞争优势 , 我们想着早点到曲线的右边 , 尽早的构建出多种工具 。
我们之前也提到这个其实很容易被超的 ,因为现在第一大家都有 Agentic AI 的编程工具 , 比如像 Cursor, 写代码很容易 。
第二 , 如果我有 10 倍于 Manus 的人力 ,因为每个工具实现起来彼此都是相互独立的嘛 , 它超起来也很简单很快 。
所以单纯的去堆工具的广度和数量 ,并不能构建有效的竞争优势 。 但是从数据复利的角度来说 , 它的护城河就会更有效 。
我举个简单的例子 , 比如说 Manus 在工作的过程中, 如果你给它一些反馈 , 它会把这个反馈记到自己的数据库里面 。
比如我们公司内部可视化的时候 , 主题色一般都会用蓝色 , 那 Manus 在被纠正过一次以后, 它就会把这个知识记到自己的知识库里面 。
下次再做可视化的时候 , 它就知道我要用蓝色 。 那当我这样跟 Manus 磨合了一段时间之后, 我再去用其他竞争对手的产品要从头开始的时候 , 我就会觉得这产品怎么这么傻 。Manus 很多事情你不用交代 , 它就有默契知道我这可视化里面用蓝色 , 那其他产品又不知道 。
所以如果 Manus 能够有效的积累数据的话 , 这样的事情发生的越多 , 它跟我们之间的默契就越大 , 我迁移到其他产品的难度也就越高 。
所以如果一个类似的 Agentic AI 的产品能够有效的积累和外化用户的数据 , 比如说个人喜好 、 团队流程 、 历史决策 , 把它们利用起来 , 这才算是真正迈入了数据复利的阶段 ,而且会构建有效的竞争力 。
第三点呢 ,是智能的层面 。 那这个无论是 Fine-tune LLM 还是说要大规模的模型的推理 , 对资源资本还有系统优化能力要求都很高 。
所以一般是资源最雄厚的公司在这个角度竞争 。 但是因为高智能这件事 , 它像一个陈述因子一样 , 只要它有一点点提升 , 它就可以对数据和工具这两个方面进行反补 。
所以对于小公司来说也不是完全无路可走 。 比如说你可以针对特定领域进行微调 ,也是一种有效的竞争途径 。
所以从上面讨论你可以看出来 ,在工具方面建立护城河不是特别可靠 ,在智能方面建立护城河你需要大量的资源 。
所以从数据方面建立护城河可能是最简便可行的一种方法 。 但是呢 , 数据这个东西 , 它毕竟是能拷走的 。
所以你在数据沉淀之外, 可能更重要的是怎么样进行沉淀 , 这个流程跟方法论要把它构建好 , 怎么系统性的把隐性的知识外化 ,Tribal knowledge 记下来 , 怎么样进行结构化的沉淀 , 怎么样进行高效的数据管理 , 这些东西是很难复制的 。
这有点像企业文化 , 你一旦形成了强大的数据管理 、 知识外化这种方法论和流程体系 , 就算竞争对手把这些工具都复制过去 , 把你人都挖过去 ,也很难在短期内复制这种隐性的组织能力 。
所以说在 Agentic AI 产品的长期竞争里面 , 最难攻破的不是说数据或者智能的规模 ,而是这种数据和工具使用的体系化组织能力 。
对 , 我们其实刚才第十二个问题的时候问到了郑灿 , 看到目前做 AI Agent 创业的团队都在做哪些方向 , 然后在刚才鸭哥也聊了这个核心竞争力要如何构建之后, 也想请灿再补充一下 ,也是我们第十四个问题 , 就是你认为今天做一个新的创业公司 , 它应该怎么去抓住 AI Agent 的机会呢 ?
那一方面可能是要考虑这个做护城河嘛 , 另一方面你有没有一些别的建议 ?
我想我们是指说进入到 AI Agent 这个领域嘛 ,因为我觉得首先对所有的 Startup 而言 , 甚至对所有人而言 , 最大的一个这个时代的红利是说有很多能用的 AI Agent 工具把它们用好 , 这个我觉得是非常重要的 。
但如果我们说的是 OK, 我要怎么去在 AI Agent 这个领域去创业 , 或者就做一个 Startup, 我觉得有几个点 。 第一个其实当然鸭哥刚才讲的这个其实放到每一个 Agent 领域都适用 , 就是找到一个场景之后就要去思考这个问题 。在这个环节当中, 就在这个场景当中, 有哪些环节这个是特别需要人的 guidance, 然后我怎么去收集这些人的 guidance, 把这些人的 guidance 外化成就人的输入 、 人的指导
、 人对模型的 、 人对工具的指导 , 外化到这个工具里面去 , 让它变成工具的智慧 。 那么就这是因为我们经常问你在这个领域做两年和另一个刚进来的人会有什么区别 , 你的产品在什么角度上毫无争议的比它强 , 往往是在这些场景 。
然后对另外一个这个 How are you ladies Startup 本身 , 它其实是提供 service 的 , 这个我想我们之前好像也聊过一次 。
就我觉得有很多本身提供 service 的企业 ,其实现在应该可以考虑说把自己的 service 变成一个 Agent 提供的 service, 或者在找场景的时候去找原来通过人来提供 service 的这样的场景 , 今天能不能通过 Agent 来完成 。
对 , 我觉得这是很有意思的事情 , 就是能够让你找到一些本来就已经是一个 business 的场景 。 就我们说有一些事你还得验证它是不是个生意 , 对吧 ?
它能不能做 ,有没有人要 ,但有一些事是不需要的 , 这个今天就不需要验证的 , 它今天就是个生意 ,而且可能是个好生意 , 只是因为要么有这个能力的人少 , 要么因为人力的缘故 , 你只能原来做其中的一部分业务 , 往往是价值比较高的那一部分业务 。
但如果今天把它变成一个 Agent 来提供的服务 , 那么就从可能本来一个事情要几十美金 、 几百块钱做完 , 变成了今天可能只需要几个美金 , 甚至更少 , 尤其是当 AI 越往前走 , 可能成本会更低的时候 , 那这个事实际上就可能比起原来第一提供的可能速度也更快 , 第二提供的成本也更低 , 第三于是你可能能触达的客户和能做的范围也就越大 , 使得这个事可能变成
一个这个很好的机会 。 就这些我觉得都是大家值得去看看的 , 反正至少我们这个是非常 active 的在想这类问题 。
对 , 如果大家要创业 , 记得这个联系郑灿 。 然后我们到第十五题 , 前面聊了很多创业公司 , 然后我们再来聊一个有趣我觉得很多人也关心的话题 ,因为很多人都买了英伟达的股票 , 那这个灿你会认为 Manus 对英伟达有哪些影响吗 ?
这是个 million dollar question, 这个
我觉得先讲事实 。 事实是首先我觉得这个事对英伟达的需求是长期讲是好事 , 短期讲其实没有太大的影响 , 包括 DeepSeek, 对吧 ?
我想很多人也讨论过或者看过对于 DeepSeek 对英伟达的影响这件事 ,其实我觉得是这样的 , 这个首先训练本身在今天可能持续的往上增长 , 大家还没有看到太明确的意义 ,而且更高效的模型的架构这些都在大家的研究的领域当中 。
那在这个事上可能本质上讲就是说我们并不会看到英伟达的量用量像原来一样这个不停的十倍百倍的往上升 , 对吧 ?
看起来是这样的 ,但实际上这个 DeepSeek 出来之后, 英伟达的就可以给一个很简单的例子 , 这个 DeepSeek 出来之后的一个月内 , 海外的 H200 的租金涨了 10%。
很简单 , 就是大家都需要 host DeepSeek, 原来你没得 host, 对吧 ? 原来有同样能力的模型是 O1, 对吧 ? 你只能买这个 API, 对 ,但现在你可以自己来 host, 然后你可以自己去蒸馏 , 然后并且这些蒸馏出来的模型在实际上 inference 当中的用量比原来要多 。
就我们一直在说 inference 才是模型真正落地的大头 , 对吧 ?Training 只是在现在这个模型还不成熟的阶段当中承担了这个
, 或者说承担了英伟达的收入贡献的很大一部分而已 。 对 ,但在未来的 AI 时代 , 实际上 inference 的用量应该是 training 的十倍几 , 对吧 ?
至少至少 , 这个随便拍的 , 这个 。 然后今天的 thinking model 其实都在大量的用 token, 然后 Manus 这样的产品 , 这个它通过它本身也是通过 token 来完成自己的规划和自己的输入输出的 , 那也是一样 , 就是其实这个它会消耗大量的 token, 它会消耗大量的算力 。在今天实际上我觉得可能甚至是这一类产品本身面临的一个问题 , 对吧 ?
但回过头呢 , 那说回对英伟达呢 , 那反正我觉得与其思考说这些东西对英伟达有多大的影响 , 还不如想想说这个英伟达今天大家对它的我们叫估值当中有多少成分是它已经交付的量 ,有多少成分是对它未来交付的预期 , 对吧 ?
还有就是今天的交付是不是已经就这个量是太多了还是太少了 。 因为其实另外一个有意思的数据 ,在 DeepSeek 出来之前 , 去年一整年的这个 inference 的成本是在下降的 , 就是 H200 是在不停的跌的 。
所以很有意思 , 就其实在去年你认为说某种程度上它已经够多了 , 反而是 DeepSeek 出来之后, 这个大家又囤了一波 , 对吧 ?
尤其囤的是 H200,因为 H200 正好一台机器可以补一个满血的这个 DeepSeek 嘛 。 对 ,但回过头我觉得其实更值得讨论的是
今天这一类 , 就今天其实这一类的 Agent 产品面临的问题是是模型的推理效率太低了 , 或者说这个要它推理消耗的 token 太多了的问题 。
就我们其实期待这个问题在未来能够被解决掉 ,而且我就从我的角度它一定会被解决掉的 ,因为今天的推理基本上是靠我模型自己跟自己说话嘛 , 这个通过 prediction 吐出 token 来 , 通过预测去吐出 token 来 , 对吧 ?
这个然后把我吐出来的 token 当成 context 来吃回去 , 对吧 ? 来做我的 planning, 那这个我们俗称叫吐了吃嘛 , 这个效率其实很低的 。
就因为思考完全可以在体内完成 , 只不过因为今天的模型的设计的架构使得它必须把自己的思考通过 token 外显出来 , 然后再作为对接下来的步骤的指引吃回去 , 对吧 ?
那如果它可以在体内去思考 ,其实它的效率会大幅的高 , 然后它的成本可能也会大幅的低 ,不一定代表算力会消耗会减少 ,但它的效率会高 ,因为吐字出来你还有一个 I/O 的时间 , 那个比起来其实可能比起成本 , 比起 token cost, 我觉得时间的 cost 是更大的问题 。
就今天我让 Manus 做一个事可能需要很长的时间 , 对吧 ? 但如果这些事它全在它模型体内去进行这个思考的话 ,不需要吐出来变成字的话 , 变成 token 的话 , 可能需要的时间是现在的十分之一 , 甚至更少 。
就我觉得这是我们特别憧憬的一个事 , 就是一个新的长程推理的模型 。
其实郑灿上次来十字路口录播客是去年年底的时候 , 我们做了一期这个 AI 出海的这些公司们的复盘 , 然后短短的一个季度过去 , 我们觉得好像翻天覆地的在变化 。
那个时候还没有 DeepSeek,也没有 Manus, 然后 Gemini 2.0 Flash Thinking 那个时候好像也没发吧 , 更不用说现在它都还发了这个多模态可以自然语言改图 。
那个时候都没有 , 那个时候唯一的思考模型是 ChatGPT。
对 , 那个时候唯一是 O1。
对 ,是 O1。
未来展望1:14:14
三个月过去我们觉得有非常多的变化 , 所以就是十六个到第十六个问题是一个很 general 的问题 ,是想问一下灿 , 就你觉得这个所谓的大家在讲的 Agent 的时代要来了吗 ?
这是一个什么样的时代 ?
我觉得一定是 , 就是所谓要来了 , 我去年也觉得它要来了 , 今年依然觉得它要来了 。 去年的问题是这个模型什么时候能变得更好 ,其实就是我说我们去年年底的时候 , 我自己也做过一个盘点 , 那个时候讲说对模型的展望的时候 ,其实就是希望有更强的其中一个展望 , 就希望有更强的模型能够让 Agent 可以真的落地 , 可以真的把事做完 , 对
吧 ? 那其实那句话说完之后 DeepSeek 还在脸上, 对吧 ? 然后这个那以后像包括像各种 thinking model 还在脸上, 对吧 ?
那终于 Manus 也还在脸上了 , 很好 , 对吧 ? 终于能够看到这样的产品落地 , 这背后实际上我觉得离不开模型的往前走 。
那我觉得这个时代一定是离我们越来越近了 , 对 , 尤其是这一个季度实际上大幅的靠近了 ,因为刚才讲的一系列的原因 。
那接下来其实是看到说第一个更多的 Agent 的产品 , 第二个可能在各个专业领域当中可能由浅入深的这样的模型能够这样的 Agent 的产品能够落地 。
我觉得今天其实有一些地方已经是 by default 的了 , 对吧 ? 就是 coding,其实 coding 是一个非常好的 Agent 的应用 。 那今天你其实已经看到说 Cursor 的产品算 Cursor 这一类的产品已经基本上是默认的 , 然后另一类面向可能没有编程背景的 Boltnew 也好 , 这个 Lovable 也好 ,其实也长得非常好 。
那这一类实际上就已经变成了更加相对更普罗大众的产品了 。 就我觉得其实这是在程序创建的角度 , 那在这个所谓的知识工作者做 research 的角度 , 我们有了 Manus, 对吧 ?
我们还有了一堆别的 deep research 的产品 。 我觉得这都是在这些领域我们已经看到一个
很一个叫兆头也好 , 一个趋势也好 。 那其实在接下来在更多的领域我们都会看到类似的产品出来 。
就是好像一夜之间千树万树梨花开 。 所以第十七个问题也是和这个有关 , 就是在这一波 Agent 的产品陆陆续续的 Cursor、Devin、Manus 它们发之前 , 我们说到 AI 好像说的都是 Chatbot, 都是以 ChatGPT 或者豆包这样为代表的聊天软件 。
但是这个新的 Agent 的交互形式也让 2C 产品的形态发生了很多变化 。 那灿在你看来就是这些变化你有没有提炼过有哪些 ,以及这些变化对于创业者对于开发者来说又意味着一些什么样的这个机会或者风险 ?
我想怎么说 , 这问题很有意思 , 就是首先 Chatbot 对我而言其实算是 AI 的一个意外之喜 , 就其实它是个意外 ,但是这个意外有必然性 , 对吧 ?
有一个东西愿意跟我聊天像人一样很好玩 , 所以你能想象它能火 ,但我指的是从实际上我们说 AI 给我们带来什么这个角度 , 实际上就其实 Chatbot 本身是个意外 。
就
我们本来在希望的说 AI 带来的生产力提升当中 ,其实真正的落地是指 Agent, 就是当 Agent 就 Agent 是一个很 general 的 term, 对吧 ?
但 AI 落地的在生产力这个角度实际上主要是主要的来源就应该是今天我们说的 Agentic AI, 就真的帮我把事干了 , 把一个有实际上有用的事给干了 , 对吧 ?
所以从某种意义上我觉得这个演进过程是必然的这个 ,而且原来只能做 Chatbot 是因为你也没法让它做事 , 它也做不了事 , 它做了你也不放心 , 对吧 ?
诸如此类 。 所以我觉得这本质的变化是说 AI 某种程度上终于就模型能力终于行了 ,是个很重要的事情 。
就是之前我们这个好多次提到这个事 , 对吧 ? 我觉得本质上讲是模型能力的提升带来的 。
这里又有另外一个有趣的话题 ,也是第十八个问题想问的 , 就是模型在不断的变强 ,而从这个 ChatGPT 3 的时候就有一个观点叫做模型即产品 。
那在模型能力变得越来越强的时候 , 技术和产品的边界在某种程度上有时候好像变得很模糊 ,但是有时候比如说 Manus 一发布 , 它又变得好像很清晰 。
比如说 DeepSeek 出来的时候觉得这个已经模糊了 , 对吧 ? 模型那么强 , 之前的产品全部被碾压 ,但是 Manus 一发布觉得产品能力还是很重要 。
就在你看来 , 它的这个边界到底在哪里 ? 有没有去一些这个总结或者提炼可以分享一下 ?
我觉得我们真正要用的都是产品 , 所以其实这个边界是挺明显的 。 只是比如说 DeepSeek model 本身 , 如果我们说它是技术 ,其实我其实可以举一个这样的例子 , 就其实 DeepSeek 的 R, 它不叫 R1, 它叫 Zero 吧 , 还叫 R1 Zero, 就是其实那个模型 potentially 可能是一个更强的模型 ,因为它是真的这个通过强化学习学出来的一个没有经过 alignment 的 model。
但当它变成一个聊天应用的时候 , 你希望去 align 它 , 对吧 ? 这 align 当中包括了很多 , 比如说它要做说对的话做对的事 , 对吧 ?
然后这个它要用比较通顺的语言来说话 , 它要用一种语言 , 同一种语言 。 实际上本身这个他们提到很有意思的事情 , 就是 Zero 在学的时候 , 这个属于说话都是这个语言混杂的 , 对吧 ?
你基本认为它是个结巴 ,但它很聪明 。 但
这个我们实际看到的 DeepSeek 聊天的这个 Chatbot, 它说话很流利 , 它没问题 , 这本质上是经过了大量的 align, 还有包括经过了一些这个他们做的 bootstrap 一系列的工作 , 对吧 ?
那这些工作某种程度上甚至是降低了或者说禁锢了模型的能力的 。 但回过头这个就是产品对于模型的控制 , 你希望它可控 , 它不会说你不想说的话 ,不会说就不合适的话 , 对吧 ?
它会说它会让用户的体验更好 , 那这就是产品的部分的工作 。 所以其实我们最后真正用的你可以认为都是产品 , 对吧 ?
然后
啥叫为什么大家有时候觉得所谓模型即产品的 ,其实是因为我理解是因为模型的能力在今天极大的程度了决定了极大程度决定了产品的上限 , 就是产品能力的上限 。
就像我们说在去年其实我们可能不会做 Manus 这样的一个就产品 , 就这个 ,但我没有问过这个小红 ,但我理解从我的角度看 , 去年可能大概率大家不会做一个这样的产品 , 原因是因为做了太达不到今天的效果 , 对吧 ?
所以我觉得这是很重要的一个原因吧 , 就是就模型决定了产品的上限 。 但回过头呢 , 所以大家经常看到新的产品形态的出现 , 往往是伴随着模型能力的一个大跃进 , 对吧 ?
过去一个 Q 模型能力大跃进 , 然后你看到产品也紧跟 。 但回过头我觉得是这个大家千万别忽视说有了模型之后你需要大量的工作去把它产品化 , 然后这个产品化的能力本身会导致产品的体验的上下有很大的区别 。
就像我们说 Lovable 和 Boltnew 的产品的体验都会有高下之分 , 对吧 ? 像 Cursor 和很多的类 Cursor 的产品其实体验有高下之分 ,但其实它们背后依赖的模型的能力是一样的 。
就我们说这个大家都用一样的电池电动电驱 , 对吧 ? 但这个回过头造车的能力差别很大 ,是就车好开不好开这个差别很大 , 是一样的道理 。
所以我本质上我觉得说模型决定产品能力上限 ,但需要产品力来确保这个模型或者叫模型提供的能力可以给我一个好的体验 。在能力和体验之间的这个 gap 就是所谓的产品化 。
我觉得我们最后两个问题吧 , 最后两个问题呢 , 一个想聊一下行业 , 一个想聊一下个体 。 那第十九个问题也是想再问一下灿 , 就是你认为 AI Agent 像刚才其实你也提到 , 当我们聊创业的时候 , 一方面是说去做一个 Agent 的产品 ,但另一方面你也非常推荐大家思考一下 ,有了 Agent 之后我可以用它来去如何的去做之前做起来效率很低或者难度很高的一些
事 。 所以这个问题呢是想说你认为 AI Agent 会让哪些行业最先受益 , 又有哪些行业最可能被它给颠覆掉 ?
对 , 我觉得 AI 落地的场景简单的想就还是刚才的说法 , 对吧 ? 就是成本高的行业 , 离钱近的行业 , 就不叫行业了 , 成本高的场景 , 离钱近的场景 , 就那种我们说最典型的场景 , 当然跟我们创业者可能关系不大 , 跟日常创业的关系也不大 , 就这个军事 、 国防这些场景 ,其实是非常典型的应用领域 , 就是无论如何都要用 , 就只
要它能提供帮助 , 哪怕它不成熟 , 我用各种各样的方法去限制让它成熟 , 我也会用 , 对吧 ? 那在我们讲我们看得见的领域 , 这个
这个这个这个播客还得继续存在 ,不能不能讲那些 。 讲我们讲我们看得见的领域 ,其实 coding 是个很典型的场景 , 这个场景你说它是受益还是颠覆 , 我也不好讲 , 对吧 ?
但的确这个行业本身原来的人力成本非常高 ,而且知识密集 , 对吧 ? 然后但今天其实首先我们都受益了 , 包括我在内 , 觉得这个我们开玩笑说是中老年程序员的春药 , 对吧 ?
你手不快了 ,但你脑子可能还在 , 所以你用 Cursor 可以极大的提高你的这个效率 , 然后你用 Lovable 可以让我这样一个原来完全不会没有审美的程序员可以做一个也像模像样的前端 , 对吧 ?
那这个受益是很大的 ,但回过头这个它也有可能被颠覆 , 颠覆说的是这个行业的供需从此有了极大的变化 , 对吧 ?
那以前这个你得有程序员才能写程序 , 今天可能不用了 , 对吧 ? 最先是产品经理拿着那个拿着 Lovable 直接做 demo,demo 做出来告诉程序员说你就这么做 , 再过几天可能他不需要告诉程序员了 ,他直接就把这个产品给 ship 了 。
我们甚至在讨论说其实未来一个有需求或者叫有问题要解决的人就可以写程序 。 那我比如说我我是一个开店的人, 我希望给我的店配一个电商 , 那我就可以用这样的工具去写一个我的这个什么线上线上下单的小程序 , 咖啡店的老板 , 对吧 ?
完全可以写一个这样的程序了在今天 。 再往前甚至可能都不需要有这样的商业价值 , 就原来写程序有成本 , 所以我需要考虑它的商业价值 , 对吧 ?
那我开咖啡店的做个应用程序可能还有道理 , 对吧 ? 但比如说什么我过年了 , 我想给大家发红包 , 我想自己写个红包程序 , 听起来就很扯淡 , 对吧 ?
这东西你这个算不过来嘛 ,但今天也可以啊 。 就在未来我们觉得甚至有大量的所谓的程序是你可以认为叫用过极器 , 或者说它没有特别明确的经济价值 。
那这是我觉得说这个行业可能就会被颠覆的点了 , 它的供需发生了巨大的变化 。
好 , 那我们最后一个压轴的问题了 , 我想这也是每个人都会关心的问题 。 我们前面聊的话题呢 ,有些还挺技术或者硬核的 , 那最后一个问题我们轻松一点 , 就想请鸭哥来给我们讲一讲 , 作为一个普通的个体 ,在这样的一个时代 , 我们值得做哪些调整或者变化来更好的拥抱它 ?
这是一个特别好的问题 , 我也花了很多时间去思考 。 首先我觉得 Agentic AI 和传统非 AI 时代或者非 Agentic AI 的时代相比 , 最大的特点是我们人类的职责改变了 。
我们更多的需要定义问题 ,也就是告诉 AI what,而不是具体去指导 AI 怎么样去工作 ,也就是告诉 AI how。 我打一个比方 ,在 AI 时代以前 , 比如说我是一个码农 , 我写代码 , 对吧 ?
这有点像我们在一个船上面划桨 。 作为一个码农呢 , 我要学很多编程方面的知识 , 就好比我要去学习怎么样划桨划得更快 。
我需要去学习甚至打磨我自己的工具 , 就好像我用的桨的材料和形状要怎么去选 , 才能实现划桨效率的最大化 。
这是一套传统成熟的人才培养体系 , 还要筛选方案 。 比如像大家招人, 你码农都要写 leetcode, 要做白板编程 , 对吧 ?
或者你看看 GitHub, 你平时有没有在打磨自己的桨 。 但是呢 ,AI 时代或者 Agentic AI 时代一到 , 出来了蒸汽机这个东西 , 我们人类不论划桨划得再厉害 , 你也没蒸汽机跑得快 , 对不对 ?
你也不能 24*7 不间断工作 。 那它带来一个什么影响呢 ? 就是工具社会和公司它需要的人才 , 慢慢的它就不是那些划桨划得快的人了 ,而是那些能够给蒸汽机加煤啊 、 添水啊这种专业人才 。
同时以前针对人类划桨打磨的那些桨啊 , 它的用途也会越来越小 。 我们要追求的呢 ,其实是为蒸汽机找到合适的工具 , 比如说你想办法要把螺旋桨给发明出来 。
所以人才它的核心职责就从划船变成了让蒸汽机尽可能高效的划船 。 或者说我在我们的讨论背景下, 我们需要的叫做 AI enabler, 你要给 AI 赋能 , 让它尽可能的发挥作用 。
这个任务比你自己亲自下场划船要更关键 。 那这样的人才是未来最需要的 。 所以说如果大家想要为未来做准备的话 , 所需要着重培养的才能就是这种 AI 赋能的才能 。
不过大家也不用特别恐慌 ,AI 这个东西啊 , 虽然是人类历史上第一次出现 ,但是在这之前其实大家已经看过很多类似的东西了 。
举个最简单的例子啊 , 计算器 , 我们上小学上初中的时候考试都是不给用计算器的 ,因为那时候老师会觉得会不会我用了计算器以后啊 , 我数学思维就没有了 , 我就不懂得怎么在数学上思考和创新了 。
但后来大家真的工作了会发现啊 , 计算器真香 ,也没有出现之前担心的那种情况 。 相反 , 我用了计算器以后, 我的精力从笔算和验算中间解脱了出来 , 反而可以去做更复杂的问题了 。
所以说我觉得 Agentic AI 这个革命其实和汽车 、 电力啊或者计算器啊在生活中的引入没有特别大的区别 。 我们要做的很多时候 , 这种转变自然而然它就发生了 。
但是呢 , 如果我们对未来的趋势有一些自己的认知和准备的话 , 这个转变对个人来说会进行得更加平滑一些 。
我其实觉得这是个很有意思的话题啊 , 这个首先我我我其实完全同意啊 , 我觉得今天大家更需要的是去找到问题 ,因为解决问题的办法已经有了 ,而且成本大幅的低了 , 对吧 ?
但其实其实 AI somehow 让我觉得或者 Agentic AI 有一个很不同的地方 ,在我看来是以前我们在想着替代的时候 , 都是从大家都觉得从替代成本低的劳动密集的事情开始 。
那是因为以前这个这个的技术的特点都是那样的 ,但今天这个很不一样的点是 ,其实我觉得知识密集型的或者叫技能密集型的领域 ,其实可能会最先被我们叫受益 ,也也可以叫颠覆 。其实受益受到一定程度就会被颠覆了 , 对吧 ?
这个这个很容易这么很容易想明白这个事 。 那那这是个很大的不一样啊 , 就是它它不是去
这个给受益或者颠覆那些劳动密集的行业的 , 它是去给受益和颠覆那些知识密集型的这个技能密集型的行业的 。
换句话说 , 实际上是原来在这个可能更加我们叫白领的那些领域 , 甚至叫专业的那些领域 , 这个是很不一样的 。
而且它还相对 general, 就是各种专业领域 , 只要你这东西是个技能 , 需要花时间学 , 需要花三年学 ,有课本 , 我可能就能学会 , 就这种通用性 。
但这也是我们 excited, 就是是我们激动的原因 。 但但这个事是是个很有意思的问题 , 就使得我们找问题的能力变得更重要了 。
对 , 寻找人生的动机这个能力也变得尤其的重要 。 就之前我们太多的每天的行动都是被安排的 , 比如说小时候被安排要学语文 、 数学 、 地理啊 , 被安排要学跳绳 、 要学跳远 , 然后工作之后很多这个 OKR 也是来自于从上到下的安排 。
然后接下来我觉得怎么找到每天起床的动机 、 每天工作的动机 , 这个社会变得尤其重要 。 好的 , 那我们今天就到这里啊 , 谢谢二位的时间 ,也希望你们再来做客十字路口 。
结尾1:33:26
如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 。 最后欢迎你加入十字路口的会员群 , 我们会在群里每天放送 AI 全球新闻 ,并且鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。






