十字十字路口Crossing2025年1月5日· 1:40:12

2025 开年对谈:AI 关键之年,Agent 开启元年 | 对谈真格基金戴雨森

戴雨森和Koji在2025开年对谈中回顾AI的飞速发展,重点分析Devin作为首个可商用Agent如何定义异步体验、云端虚拟机、知识积累和按任务收费的新范式,并指出o3的超人能力将解锁前沿研究机会。他们强调2025年是Agent元年,AI编程从ChatGPT的“我问你答”进化到Devin的“我问你做”,带来工作模式从工具到虚拟员工的转变,同时提醒谨慎对待杀时间应用和人形机器人过热。

  1. 0:002024回顾
  2. 12:56认知变迁
  3. 21:52新形态
  4. 27:30编程四段
  5. 31:01AI出海
  6. 37:10Agent元年
  7. 55:30规模定律
  8. 1:06:03保持乐观
  9. 1:12:27落地判断
  10. 1:18:16技术浪潮
  11. 1:31:13大机会
  12. 1:34:34投资非共识

转录文稿

2024回顾0:00

戴雨森0:02

欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。《 十字路口 》 是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚 AI 时代的积极行动者 , 和他们一起探索和拥抱新变化 、 新的可能性 。

我是主播 Koji 杨元成 , 联合创办了 " 接旁 "、" 新世相 " 和 " 躺岛 "。 我相信科技 , 尤其是 AI, 会在未来 10 年彻底改变社会 , 赋能人类 。

欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性 。

Koji 杨远骋0:47

本周 2025 年第一期 《 十字路口 》, 我们有幸再次和真格基金的播客 《 此话当真 》 串台 , 邀请到真格基金的管理合伙人戴雨森 。

半年之后, 雨森再次来到 《 十字路口 》, 原因是我们俩最近两周都非常兴奋 ,因为我们觉得在 2024 年底和 2025 年初这个时刻 , 我们很可能正在亲历科技史上的一个重要时刻 。

这种感觉是来自两个比较重大的事件 : 第一是 Devin 的出现 , 第二是 OpenAI 发布了 o3。 先说 Devin, 雨森在社交媒体上有提到 ,他认为 Devin 作为第一个真正能用的 、 真的 Agent 的产品 , 它的出现可能标志着人类历史的一个重要时刻 。

随后不久 ,OpenAI 在持续 12 天的发布会的最后一天 , 让 o3 亮相了 , 这也在行业内引起了巨大的热情 , 被认为是一个不亚于 GPT-3.5 的重要的里程碑式的发布 。

现在是 2025 年的开端 ,2024 一眨眼就过去了 。《 十字路口 》 保持收根也有 40 多期 , 我们每周都在持续地分享发生在硅谷和中国的 AI 创新 、 技术突破与产品落地 。

回首去年, 有的人会认为 AI 的进步是惊人的 , 日常的工作都已经有超过一半可以去 AI 帮着处理了 ,但也有很多人觉得 AI 并没有特别的突破 , 认为不过是 OpenAI 又发布了 4o, 紧接着 o1、o3,Anthropic 发布 Claude 3.5、Gemini 2.0, 国内大模型厂商每周也在发布各种复杂的版本号 , 搞得大家云里雾里 , 搞不懂究竟有多大的进步 。

但就像刚才提到的 , 我和雨森都是坚定的进步主义者 。 有一句大概 10 年前雨森就挂在嘴边的话 ,也常常像弹幕一样飘过我的眼前 , 那句话是这么说的 : 悲观者往往正确 , 乐观者才能成功 。在生成式 AI 的这波浪潮之中, 我们都是典型的乐观者 。《 十字路口 》 的目标一直是寻找 、 访谈和凝聚在 AI 时代的 " 积极行动者 "。

因此 , 本周的 《 十字路口 》 作为开年的第一期 , 我们将分成两个主题来展开 : 首先我会和雨森探讨他对去年的 AI 行业的整体观察 ; 作为真格基金的管理合伙人 ,他在一线积极地投资 AI, 我们想听听他有哪些感受和心得 ,以及对 2025 年的预期 ; 其次我们将一起探讨 Devin 为什么如此让我们兴奋 ,以及通过 Devin 我们将能够窥见未来哪些 AI 的发展和创业

的机会 。 那我们先来问雨森的第一个问题 , 就是 2024 年这一年下来 , 你的整体感受是什么 ?

戴雨森3:14

好的 ,也非常高兴能够跟 Koji 再次合作 , 来分享我们对于 AI 发展和投资的一些感受 , 然后和大家有一个交流的机会 。2024 年这一年下来 , 整体感觉我觉得就是一个字 : 快 。

因为我们看到 AI 的模型以及产品的进化速度都很快 。 我记得在 24 年年初的时候 , 最先进的模型是 GPT-4, 那个时候有一个新的 benchmark 叫 "3Bench",是把 GitHub 上常见的任务类型把它拿下来 , 然后让 AI 去尝试完成 。

当时最先进的模型 GPT-4 在这个上面的得分是 2.8 分 , 满分是 100 分 。 然后在 24 年年底的时候 , 大家可以用到的 Sonnet 3.5 是能够得到 50 分 ,也就是能解决一半的任务 。

然后刚刚发布的 o3 在初步的 eval 里面已经得了 71.7 分 。 乐观来讲 ,以这个速度在一年的时间内 ,也就是 25 年, 我们就可以看到人类绝大部分 GitHub 上的任务都能被 AI 解决了 。

大家知道 , 这也意味着可能现有的程序员的单个任务 ,不说它把它整体合起来 , 那么可能程序员的工作确实有很多都是可以被解决的 。

然后 24 年年初的时候 ,ChatGPT 还不太会做四则运算 , 那时候大家经常说考它一个三位数乘三位数 , 可能它也会算错 , 对吧 , 只有可能最后一位数是对的 。

但是现在呢 , 解答 IMO 级别的题目已经得心应手 , 甚至在反映着对数学家来说都很难的 Frontier Maths 这个测试集上,o3 也得到了 25 分的这样一个成绩 。

这个是陶哲轩他背书的 ,他认为这些题目简单的是 IMO 级别 , 难的是前沿研究级别 , 现在 AI 也能做得不错 。

然后我们投资的 Kimi,他们的产品是 23 年 10 月 9 号 , 差不多也就是 24 年开始前一点点时间上线的 , 到 24 年的年底已经有 4000 万月活用户 。

考虑到它是一个一年左右时间的新应用 , 这个用户增长速率也非常快 , 对吧 。 我还记得在 24 年年初 2 月份的时候 , 当时还在过春节假期 , 看到 Sora 的发布宣传片 , 我觉得非常震撼 , 觉得怎么会有这样的产品 , 要过多久 ,以什么样的成本才能用到这样的视频生成模型 。

Koji 杨远骋5:35

是的 , 大年初三的时候 。

戴雨森5:37

对 ,但是在 24 年底的时候 , 大家已经可以用着其实像可灵 ,不管是混元等一系列 , 包括 Google 也出了 VEO2, 对吧 , 就是比当时的 Sora 可能要更好的视频生成模型 , 然后甚至是免费的 , 让大家觉得不过如此嘛 , 对吧 。

所以大家对于 AI 产品的标准其实提高很快 ,在一年前大家觉得非常惊叹的东西 ,在现在可能就觉得不过如此 ,但是我们始终都觉得好像还有更多的可以做的事情 , 好像还有很多东西没落地 ,但实际上进展是非常快的 。

同时我觉得也有很多的观点和看法被打脸 。 我记得在 24 年开始的时候 ,其实如果你去问中国大家这些投资人 、 创业者 , 很多人都要做中国的 Character AI, 对吧 , 当时大家都觉得这好像是一个 Toolsy 应用 , 又有很多人用 , 时长也很长 , 当时说要百思一大战 。

Koji 杨远骋6:24

对 , 当时还预测 2024 年一定会发生的一个趋势是百思一大战 , 反正我没有那么预测 ,但是有很多人这么预测 。

但是在 24 年 8 月份 ,Character AI 其实就宣布被 Google 收购 , 然后大家发现好像这个要破圈也不是那么容易 , 对吧 。

我记得 3 月份的时候 ,Cognition 这家公司 ,也就是 Devin 的开发者 ,他们发了一个 demo, 当时是 demo 的视频 , 然后那个时候大家都觉得不相信 , 觉得这公司是忽悠吧 , 甚至有人说是骗子吧 , 还有打假的视频 。

结果 12 月 Devin 这个产品出来 , 大家大为震惊 , 说居然这个是真的可以做到很多 Agent 的功能 。 当然我们待会会接下来讨论 , 这个也是一个很大的反差 。

我还记得在 23 年年底 ,OpenAI 的宫斗事件 , 那个时候整个 OpenAI 的员工都集体在推特上发声 , 支持 Sam Altman, 说 "OpenAI is nothing without its people", 对吧 , 那是刷屏的内容 。

但是到 24 年底 , 走了不知道多少人, 最后的元老 Alex,OpenAI 的核心研究员也走了 , 对吧 , 中间基本上大部分找事员工都走了 。

然后包括在年初的时候 , 大家觉得 GPT-5 很快要出来 ,但是一直到年底 ,4.5 也没有出来 , 对吧 , 等来的是另外一条路线 , 就是 o1、o3 这条在 Inference Scaling 这条路线 。

所以我觉得一年下来很多的变化 ,不管是有很快的变化 , 还是有很多让人想不到 , 或者是没有预计到的变化 ,其实可能在一个行业的早期变化是常态 。

戴雨森7:51

而且半年前在 《 十字路口 》 那一期播客里的话 , 雨森有一个核心观点是说 , 大模型还是小学生 ,不要急着让它去打工赚钱 , 给它多一些耐心 。其实在说这句话的时候 , 这背后暗示着认为技术的进步虽然很快 ,但其实它离商业化还很远 , 它离 Toolsy 的大规模的应用还很远 。

那在今天你还是这么认为吗 ? 还是你觉得其实进化的速度是比你当时理解的要快的 ?

Koji 杨远骋8:16

首先当时说这句话呢 ,有一个上下文 , 就是大家在问 , 训练模型花了这么多钱 , 什么时候才能赚回来 。

那么我觉得这个在每次技术革命的时候 ,其实都有一样的模式 , 就是先要花钱投入 , 搞基建 , 搞科研 , 对吧 , 然后再产品逐渐地找到落地的场景 , 然后再是逐渐产生商业化的收入 。

那么一年下来呢 , 我觉得在一些具体的模型现在能力比较擅长的领域 , 比如说 Coding 肯定是一个非常非常明显的领域 , 对吧 , 那么我们看到大模型的能力的进展 , 确实已经过了可以打工的阈值 。

刚才我提到的在 3Bench 这样一个测试上 ,在年初只能解决 2% 的问题 , 那肯定打不了工 。 但是现在能解决 50% 的问题的 Sonnet 3.5 出现之后, 确实我们看到像 Cursor、Windsurf, 包括像 Devin 这样的产品都涌现出来 ,并且它们能够真正地帮助程序员解决很多问题 , 对生产力带来了实实在在的进步 。

那么同时呢 , 我们看到从收入的角度来讲 ,有一些 Native AI 应用在找到 PMF 之后, 收入增长很快 , 对吧 , 比如说 Cursor 现在的 ARR 应该是已经到了接近 100 个 Million, 接近 1 亿美金的程度 。

然后有一个也是做 AI Coding, 它只是针对可能更加技术小白的用户 , 叫 Broad New, 它是在两个月的时间达到了 2000 万美金的 ARR, 这应该是历史上最快的增长的企业服务应用 。

然后它是四个星期达到 400 万美金的 ARR。 另一方面 , 另外一家在斯德哥尔摩的公司叫 Lovable, 它也是用四个星期达到 400 万美金的 ARR 年化收入 , 对吧 , 这个也是非常非常快的 。

包括我们投的 AI 应用 Heygene,在 23 年的年中的时候 ,他们的产品达到一个 Million 的 ARR, 然后在 24 年底 , 经过 18 个月 ,他们就达到了快 50 个 Million 的 ARR, 增长了几十倍 , 对吧 。

然后我们投资的 Monica 其实也是超过千万美金的 ARR, 所以这些其实都是在相对比较短 , 十几个月的时间内实现的 。

所以我觉得不管是我们在看到海外的这些创业公司 , 还是我们投资的一些创业公司 ,在用户使用 , 对吧 , 刚才也提到 Kimi 其实已经有 4000 万的用户了 , 就是在用户的使用上 ,以及在一些领域的用户的付费收入上, 这些都获得了很大的增长 。

所以我觉得首先它在一些领域已经可以开始打工了 ,但是我觉得整体来讲 , 它获得的收入仍然远远低于成本 , 我们还是需要有耐心 。

毕竟现在 ChatGPT 出来也就两年的时间 , 那么我认为我们仍然处在一个模型能力不断地提升 , 解锁新的应用场景 , 然后应用场景诞生了足够多的价值之后, 开始能够做商业化的这样一个逐步开展的阶段里面 , 所以还是要有耐心的 。

戴雨森10:57

对 ,其实我觉得这一波技术扩散的速度也是非常快的 。 刚才提到的 Cursor、Bolt, 包括 Heygene 和 Monica, 然后其实这四个 , 除了 Monica,因为小红送了我 VIP 会员 , 另外三个我都是付费用户 , 这些技术扩散起来 , 我觉得是比上一波更快的 。

即便它们并没有网络效应 ,但是今天我觉得有一帮非常热情的技术的前沿的探索者 , 大家在不断地去尝试新的东西 ,并且在热情洋溢地去传播这些新的东西 , 那其实 《 十字路口 》 也是这样的一员吧 。

就包括我和雨森 , 每次用到什么兴奋的东西 ,也都会第一时间分享 。 所以我觉得一个强烈的感受 , 包括也是我们录这一期的原因 , 就是希望让大家不要隔岸观火 , 觉得好像看到的只是各种版本号的新发布 , 对我好像没什么影响 。

特别希望大家能够跳到浪潮里面去 , 下载这些应用体验一下, 早一点感受 , 早一点用起来 。

Koji 杨远骋11:49

我觉得有一句话说得特别好 , 应该是 Gibson 说的 , 一个科幻作家 ,他就说未来已经到来了 , 它只是没有均匀分布而已 。

你如果日常只是用一个简单的 Chatbot, 甚至还有很多人都还没有怎么用上 AI 的产品 , 那可能就觉得这都是一些新闻头条而已 , 对吧 , 谁谁又打搒了 , 谁谁又怎么样了 。

但是在某些特定的领域 , 比如说程序员 , 比如说数字艺术创作者里边 , 我相信很多时候 AI 工具已经成为他们生产中不可或缺的一部分 。

所以我一直觉得很多时候花一点时间 , 或者花一点小钱去体验最新的 AI 产品 ,其实可以很直观地感受到我们在有些领域的进步 。

不管是时间还是金钱的投入 , 我觉得都是非常值得的 ,因为这是一个对未来看见的一个好的办法 。

戴雨森12:30

以及刚才提到 ,不管是数字艺术创作者还是程序员 , 这两个群体应用的大规模的进步 ,因为我是认为他们这样的进步并不是去帮助程序员和数字艺术创作者这个群体的 ,他们更多的是在帮助普通人也能够去做原来只有程序员和艺术创作者才能做的创造 。

我觉得这个其实更大的意义 。 所以大家听到了不要觉得我不是程序员 , 或者我不是一个数字艺术创作者 , 这个和我没关 。

认知变迁12:56

戴雨森12:56

我想说的是 , 这个其实和大家超级有关系 ,因为你就可以去做之前他们能做的事了 。 我们再说回来 , 雨森你去年在真格大概聊了什么量级的 , 大概多少个 AI 应用的创业项目 ,有没有什么整体的感受 ?

你有觉得 AI 应用落地的速度在加速吗 ?

Koji 杨远骋13:14

我们团队大概加起来应该聊了上千个 AI 应用的创业项目 。 我自己看了一下, 大概聊了 100 多个 , 接近 200 个创业者 。

我们确实觉得呢 , 随着技术的一些进展 ,AI 应用的落地速度是在加快的 。 具体来说的话 , 我觉得三个进展很重要 , 第一个就是模型的推理能力 , 包括像 GPT-4o、 像 o1 这些的发布 , 模型的推理能力变强之后, 它的幻觉会减少 , 所以可以去规划和完成更加复杂的任务 。

然后第二个就是模型的编程能力提高 ,因为你在数字世界 , 大量的任务可以通过编写程序来完成 。 我们开始也提到 3Bench 的进展速度非常快 , 对吧 , 当这些常见的任务能够被编程解决的时候 , 至少在编程这个领域 ,以及可以被泛化为编程的一些其他的领域 , 执行任务的能力会强很多 。

第三就是 Anthropic 为领先提出的工具使用 ,Computer Use。 那么 AI 能够使用我们已有的软件 , 比如从浏览器开始到其他的软件 , 那么人类社会造的这些软件都可以被 AI 去用来解决他们的任务 , 对吧 。

所以这几个加起来 , 我觉得对于 AI 完成任务的能力其实要提高很多 。 我觉得在 2025 年, 其实 Devin 的发布很重要 ,因为它是第一个把 Agent 从大家的想象 , 从原型到现实落地的产品 。

我觉得我们在 25 年会很快看到各个领域的 Agent 的尝试都会出来 , 当然很多这些都还是在比较初级的阶段 ,但是我觉得会有很多很有意思的思考是得以能够落地的 。

戴雨森14:43

对 , 我们待会会在后面花非常大的篇幅来和大家聊 Devin,以及聊我们对以 Devin 为代表的 AI Agent 在明年的发展的一些预期 。

Koji 杨远骋14:52

但是我们看到在美国和在中国 ,其实 AI 应用的大家创业方向是挺不一样的 。在国内由于企业服务 , 它确实落地起来还是有些难度 , 对吧 , 导致我们看到了很多创业者其实想做的还是各种 Toolsy 的应用 。Toolsy 的应用里面呢 , 确实很多都是倾向于做一个杀时间的应用 , 比如说各种情感陪伴呀 , 各种 AI 聊天呀 , 这样的应用的变体 。

那么在美国我们看到是在各个细分领域 , 大家都在想去替代部分人类的工作 , 让工作变得更加降本增效 。

所以这个其实是中国和美国创业方向的很大的一个反差 。 当然国内还有一大块就是机器人特别火 , 对吧 , 整个具身智能领域有非常多的新公司出来 , 然后很多融资 , 甚至我们觉得是有一点过热的这个情况 。

但整体来讲的话 , 我觉得大家还是非常兴奋的 , 尤其是我觉得对于年轻创业者来讲 ,因为之前大家可能觉得互联网时代已经快结束了 , 咱们 80 后都是互联网时代的红利获得者 ,但是 00 后可以干嘛呢 ?AI 没出起来之前 ,他们觉得自己可能互联网领域确实没啥可干的 。

但是 AI 现在我觉得大家看到了很多新的机会 ,也是属于他们这一代年轻创业者的机会 。 所以我们作为一个始终关注年轻人的基金 , 还是觉得有很多的有意思的创业者在出来 ,有意思的项目也在出来 。

戴雨森16:07

说到这一波的创业者 , 你觉得他们身上有哪些典型的共同点吗 ? 除了对年轻更友好之外 。

Koji 杨远骋16:14

我觉得当然年轻这是一个随着不同时代进展必然有的特点 , 对吧 , 然后我觉得第一呢 , 大家普遍更加有国际化视野 , 信息的传播其实越来越快了 。

我觉得当时在互联网时代 , 可能海外一个应用火了 , 中国要过个三个月到六个月才有对标的产品出来 , 对吧 , 那像现在这个基本上海外出现什么新的事情 , 当天就会有新闻报道 , 很多时候也是 AI 去总结翻译的 , 对吧 。

所以大家对模型啊 , 海外应用的进展普遍都很了解 。 那么在这个时候 , 同样因为做的产品也往往都是国际化的 , 你出海现在也是很大的主题嘛 , 本来模型也是具备很强的多语言能力 , 所以大家很多时候一上来做的产品就是全球化的 。

这个其实在互联网时代也比较难以看到 , 对吧 , 那个时候大家往往都还是说我就做一个针对中国市场的产品 ,而现在往往大家一开始就是两条路一起走 , 既有国内的也有国外的 。

然后我觉得这里面看到很多创业者和团队也更加的 AI Native,不少人都有做 AI Research, 或者在里面有工程实践的经验 , 这个也是他们能够更早看到机会 , 或者把机会落地实施的这样一个原因 。

但是同时呢 , 我觉得对于年轻代创业者来讲 ,因为他们可能没有经历过就是当时互联网很多业务的那个流程 , 所以对于像比如说推广啊 , 做商业化呀 , 这些领域有些课需要补 。在这个时候 , 比如说一些老司机 , 比如像我们投的 Monica 这样的团队 ,他们之前经历过很多这个互联网领域的增长 , 所以这方面的经验可能确实有一些优势 。

但是我觉得这些都是可以学 ,并且也可以通过招人, 通过团队的补足来去提高的 。 所以我们觉得这方面我们还是长期很有信心 , 我们相信新的一代 AI Native 的创业者 ,其实他能够做出很有意思的产品 ,并且在这个该补的课上也能补回来 。

戴雨森17:58

我们接下来再聊一聊 , 就从去年到今年, 就是整个 AI 的技术突破 、 行业变化和创业机会在这些地方认知上的变迁 。

那首先想好奇的是 ,有哪些观点是雨森一年前你自己还蛮认可 ,但是一年之后你自己已经不再认可的地方 。

Koji 杨远骋18:15

我觉得太多了 , 所以后来我都不太想录播客了 ,因为每次讲了就容易被打脸 。 但是要早期投资 , 尤其看早期技术 , 打脸是常态 , 只有不怕打脸才能够继续学习成长 。其实一年多以前 , 我觉得大家强调的都是 Pre-training, 对吧 , 大家讲的都是说你这个卡要有多少多少卡 , 要有多大的集群 。

好像这样其实也是英伟达这个股价暴涨的原因 , 对吧 ,因为大家简单地把它理解成为你有更多的卡 , 更多的算力 , 丢更多的数据进去 , 很好的模型就会出来 。

那么我觉得在 25 年初 、24 年底去看这个呢 ,在 Pre-training 上确实从 OpenAI 以及各个行业领先团队来看 , 确实到了一个相对的瓶颈 。

如果我们说 Pre-training 是对智能的压缩 , 那现在以文本等这些形式 , 可容易被压缩的智能已经压得差不多了 。Ilya 在这个 Neurops 这项发言 ,他说这个互联网的这些文本 , 它就是化石燃料 , 就是人类这么多年积累下来的文本 , 现在已经被我们都训到模型里去了 。

那接下来就得需要新知识 , 对吧 ,不管是在我们脑子里面还没被提取出来的知识 , 或者说是通过 AI 去产生的新知识 , 那这样的知识增长速度其实没那么快 。

所以我觉得 Pre-training 大力出奇迹 , 这个其实是一个我觉得在今年大家都意识到要发生改变的一个过程 。 然后一年前呢 , 我确实也聊到一些 Agent 的内容 , 当时我确实觉得在大模型普遍有存在很多幻觉的情况下, 那么这种 Autonomous Agent, 或者说 l4 吧 , 这种级别的 Agent 落地的时间会需要比较长 。

但是目前来看 , 模型的这几大能力 , 刚才说到了推理能力 、 代码生成能力和工具使用能力 , 确实进展很快 。

这使得在数字世界里面 , 如果说我们对于这些目标结果比较确定的任务 , 比如说编程 , 那么 Agent 落地的速度确实变快了很多 。

我们已经看到像 Devin 这样的产品已经不只是一个想法 ,而且是事实了 , 对吧 。 所以这里面有两个要点 , 一个是怎么样更好地规划任务 , 所以能够做更长周期的 , 叫 Long-Term Horizon 的这样一个任务能力变得很强 。

第二就是使用工具 , 使用工具包括写代码去使用和用已有的工具 , 这两个能力都变得很强的时候 , 确实 Agent 我觉得落地的速度可能会比大家想的要快 , 尤其是在数字世界里面 。

那么第三个呢 , 我觉得就是一年前普遍大家觉得模型的 size 会越来越大 , 对吧 , 之前说可能是 7B、70B, 可能 700B 也多了 。

但是目前来看 , 先进模型的 size 其实提升也不用那么快 , 就是我们其实可以用比如说都是 70B 的模型 , 得到越来越好的结果 。

同时我们也能够把同样的智能放在更小的模型上去运行 。 所以实际上那种真正的超大模型呢 , 可能主要是用于对于这个实用模型的这种对齐 , 或者叫做 Teacher Model, 叫做这个教师模型 , 对吧 。

那么这个其实就有点像我们当时, 我记得在去找个人电脑的时代 , 大家一开始 CPU 的处理器的频率都越来越高 , 所以大家觉得这个频率要越来越高 。

但实际上到了 3GHz 之后, 单核的频率就不怎么单独去增长了 。 但是大家用更好的架构 , 更低的能耗去提升了这个性能 , 对吧 , 就跟人的大脑一样 。其实人的大脑也不是说要越来越大越来越大 ,而是说同样的 size, 那我们学到了更多知识 , 更多的技能 , 然后变得更加聪明 。

所以在这里面 , 我觉得对于模型成本的这个下降 ,其实是我们是超预期的 , 对吧 。 那虽然说大家一直都觉得模型的这个成本会越来越低 ,但是我们现在看到踏踏实实的每一年大概相同的模型的 , 或者相同的智能 , 它的成本下降到原来的十分之一 。

那这个其实也会解锁很多应用的机会 。 我觉得这个都是在可能 24 年初的时候 , 我觉得大家可能没有那么明显的意识到 , 或者说在中间发生一些改变的观点吧 。

新形态21:52

戴雨森21:52

那还有一个关于认知变迁的问题 , 就有没有哪些事你在 24 年的年初觉得值得关注 ,但没那么重要 ,但到今天它变成了特别特别重要的一个认知的这样的事情 。

Koji 杨远骋22:04

我觉得首先我们作为投资人, 那我们的认知跟于前沿的 Research 来讲 , 往往有时候是之后的 , 对吧 , 可能有的时候在研究员群体中已经逐渐意识到 ,但是我们还没有后知后觉的事情吧 。

那么 24 年肯定有一个重点 , 就是 Reinforcement Learning 的兴起 , 对吧 。 那么刚才说 Pre-training 其实到了一个瓶颈 , 那么在 Post-training 里面通过 IL 让模型能力持续变强 , 尤其是在 o1 和 o3 的发布之后, 大家发现在 Reinforcement Learning 这条路上其实还是可以走很远 , 模型的能力是可以提高很多的 。

那么在 24 年年初的时候 ,其实这一点应该只在很小的范围内有些讨论 , 还没有成为一个业界 , 甚至说在研究界之外的普遍共识 , 对吧 。

所以我们发现预测大模型或者 AI 的技术路线 , 永远是一件很难的事情 。IL 这个方面呢 ,其实擅长的人才也不多 ,是吧 , 所以大家也都在做这样的团队建设和这个技术的储备 。

与此同时呢 , 提出来的这样一个非常重要的新的 Scaling Law, 就是 Inference Scaling Law, 对吧 , 怎么样把这个推理的时间延长 , 得到更好的结果 , 这个其实也是我觉得在去年一个非常重要的揭示 , 对吧 。

那么这个不仅说在模型的设计上, 包括我们怎么设计这样的产品 ,因为现在大部分的产品像 ChatGPT、Claude, 或者像 Cursor 这样 ,其实都是说它要跟人进行实时互动 , 我说一句它做一句 , 我说一句它做一下, 对吧 。

那这个时候其实你怎么样让它每一步能够做更长的时间 , 甚至说让它自己能够通过计划使用工具 , 能够持续地去做事情 ,而不需要我的持续输入 , 这个其实我们如果把它叫做 System 2, 对吧 , 就是不是这种张口就来的 ,而是经过深思熟虑之后得到更好的结果 。其实在这方面怎么获得更好的 Performance, 我觉得在今年其实大家看到会是非常重要的一点 。

我觉得还有一个在一两年前大家觉得没那么重要 ,但是现在可能觉得非常重要的 , 就是现在我们其实已经有很多智能在模型里面了 ,但是模型在之前是没有什么 Context, 比如说当我问 ChatGPT 一个问题 , 它实际上只有我的这个输入作为它的 Context, 对吧 。

那事实上任何一个聪明人 ,他如果只有那么一句话回答一个问题 ,其实都是很难的 。 但是我们现在看到比如说 Cursor, 对吧 , 它是可以把整个组织的 Codebase 作为一个 Context, 然后你可以选择一大块代码 , 把这个作为它的 Context。

然后 Devin 其实是整合在 Snack 里边 , 对吧 , 它能把这个组织里面的已有的对话记录 、 共同记录作为 Context。 那么当模型同样的智能下你有了更多的 Context,其实能够更好地去理解意图 , 能够更好地去回答问题 。

我觉得在这个方面 , 新的产品设计怎么样让用户能够无痛地 、 简单地把更多的 Context 带进去 , 会变得很重要 。

所以我们现在看到的像 ChatGPT 这种一问一答的方式 , 我觉得它是一个非常非常原始的方式 , 大家都在想新的产品形态是什么样子 。

所以我觉得这些都是今年大家逐渐意识到浮出水面的东西 。

戴雨森25:00

我们在上一期的十字路口里面 , 正好聊了 OpenAI 过去 12 天的连环发布会发布了一些什么东西 , 然后提到雨森刚才的第三点 , 就是如何获得更多的 Context。其实 OpenAI 也发了一个东西 , 就是 ChatGPT 它的 Mac 版本 , 现在是可以来读你的屏幕 , 把屏幕上面的内容当做 Context, 再结合你的问题来给出回复 。

而这个读屏并不是简单的截屏 , 它是可以读到三个层面的 。 第一个层面是就截一个图 , 这个屏幕上显示了什么 , 它就理解什么 。

第二个层面是它可以读到 , 就是这个程序的窗口里面的所有的内容 , 就哪怕它现在并没有暴露在屏幕上 ,但是你可能要滚动上下才能看到 ,但它也可以去获得这样的这个信息 。

然后第三个层面我觉得是最厉害的 , 就它可以知道你的光标在哪 ,因为你的光标在哪说明你当前的注意力最集中在哪里 。

因此你再问一个问题 , 或者和它讨论一件事的时候 , 它会结合你的光标 , 或者你的光标选中的那段话来去进行这个回复 。

所以我觉得不只是在编程领域吧 , 刚才提到的例子是 Cursor 和 Devin,但是我觉得就是哪怕 OpenAI, 哪怕 Chatbot 这样的模式之下, 觉得 Context 的应用也会是让 AI 的进化变得很强 。

Koji 杨远骋26:13

对 ,因为你想在这个里边 , 原来的 ChatGPT 它有点像是你的一个笔友 , 对吧 , 就是你只能给它写邮件 , 然后你给它写这封邮件 , 它回你一封邮件 。

但如果这个笔友不是在邮件的另一端 ,而是它就站在你电脑后边 , 看你在怎么用电脑 , 对吧 , 甚至它可以住在你的电脑里边 , 看到它还屏幕上看不到的东西 , 它显然会变得更有用 。

所以我觉得这里边怎么样跟用户的 Context、 用户已有的知识 、 这个组织已有的知识结合起来 , 对 AI 的作用是巨大的 。

因为它现在可以消化这么多的 Context, 对吧 , 这当然也是模型技术本身的进展 。

戴雨森26:45

对 ,以及也是最近刚发两周的 Gemini 2.0 也出了一个这个多模态的一个理解 , 就是你可以直接打开摄像头 , 然后指着这个摄像头看到的墙上的一个东西 , 问它这是啥 。

比如我试了一下, 就问墙上一张电影节的海报 , 这是什么电影节 , 哪一届的海报 。 类似这样的问题在过去其实大家都会幻想 ,在科幻电影里面会想 ,但在今天已经变成现实 ,而且这个现实是在一个可以接受的成本之内 ,并且用非常快的速度就可以返回答案的一个现实 。

当然它还没有特别好的变成一个 C 端产品了 ,但大家去试用一下, 我觉得这个就很让人惊艳 。 我们再聊一聊 AI 编程 , 就是在编程领域 , 今年是取得了非常非常令人兴奋的进展 。

编程四段27:30

戴雨森27:30

雨森其实一直是有很强的框架的归纳和总结的能力 。 我记得前不久你跟我分享过你提炼出来的一个 AI 编程发展四段论 , 要不要在播客里面和大家分享一下 。

Koji 杨远骋27:41

好的 , 这个其实也是和很多朋友一起聊出来的一个结果 ,不能说是我自己完全自己想出来的 ,也是很多大家的智慧的结合 。其实 AI 编程从 ChatGPT 出现到现在也就两年出头的时间 ,但是其实我觉得已经经历了四个阶段 。

第一个阶段就是让 AI 直接写代码 , 典型的就是一开始的 ChatGPT、Claude。 那么我们是给它一个我们的需求 , 比如帮我写个贪食蛇 , 然后它就给我一段代码 。在这个过程中, 它第一不知道我为什么要写贪食蛇 , 第二呢 , 它也不知道这个贪食蛇代码跑得怎么样 , 可能要我去本地编译运行之后, 哎 , 报错了 , 然后我把这个告诉它 , 我说报错了 , 然后它再告诉我一个

调试过的结果 。 就它其实完全就是像他说的 , 是一个我只能发邮件的笔友的状态 , 这个就我问你答 。

然后第二步呢 ,GitHub Copilot, 它就像这个 AI 开放的上下文 , 对吧 , 它可以把整个组织的代码库作为上下文 , 这样来说 AI 就知道了大量的新的 Context。

但是这个时候还是得用户手动地把代码贴到这个 IDE 里面 , 然后进行调试 。 所以我觉得这个叫 2.0 阶段 , 就是我们跟 AI 开放的 Codebase 代码库作为它的上下文 。

那么 24 年显然一个非常大的进步 , 就是 Cursor 为代表的这样一个编程的 Copilot 的出现 。 它的一个最核心的理念就是说 , 我来预测用户未来要写什么代码 , 我根据你的代码库以及你刚才写的代码 , 我去预测你接下来要写什么代码 , 创建什么文件 , 做什么操作 。

那这个里面其实对于生成代码的质量和数量 ,以及说对于文件的创建和修改 , 包括后来 Windows Server 加入了对于命令行操作的自动化 , 这样 AI 就能够很好地使用我的电脑 。

原来的 AI 其实是在一张纸上写代码 , 我把代码抄走 , 这样去运行 , 现在 AI 是在我的电脑上创建文件 、 命令行操作 , 然后就是部署 。

这个我就进入到第二个阶段 , 叫我问你写 。 那么当我们觉得这个好像就已经很兴奋的时候 ,Devin 出来 ,其实它的最重要的几个特点 , 第一个就是说它可以异步地去进行工作 。Cursor、Windows Server 这些 , 虽然它一步操作做的事情比较多 ,但是它还是持续需要我的注意力 , 就是我说一步它做一步 , 我踢一脚它动一下 ,但 Devin 可以持续地去做 , 这样可以把我的作为用户的注意力

给释放出来 。 这是因为它多了一个 Planner, 它可以去规划任务 。 第二步就是它可以通过虚拟机去执行更多的操作 , 做更多的调试工作 , 比如说你写个网站 , 它可以自己用虚拟机去访问这个网站 , 看看前端后端是不是业务逻辑正确 ,并且可以随时打断和调整 。

大家用 Cursor 或者 ChatGPT 都知道 , 你是没办法在它输出的中间去做什么调整了 , 你得等它输出完了之后, 然后再执行调整 。

但是 Devin 就跟一个真人一样 , 你可以在它完成任务的时候给它下新的指令 , 它会把这个结合到它已有的 Planner 里面去调节它的计划 。

所以在这个里面就变成了我问你做 , 它就不只是写了 , 它是真的可以去做很多事情 。 所以我觉得这里面总结一下, 就是第一阶段是让 AI 写代码 , 就是 ChatGPT; 第二阶段是让 AI 开放代码库 , 就是 GitHub Copilot; 第三阶段是 AI 可以自动地写代码并且执行 , 这个是像 Cursor 和 Windows Server 做的事情 。

但第四步就是 AI 虚拟员工 , 这个我觉得是 Devin 开了一个非常好的一个榜样 。

戴雨森30:47

这个也很像一个比喻 , 就是在 1.0 的时候是可以读万卷书来向你回答问题 ,但到 4.0 的时候变成了它可以行万里路 , 它变成一个虚拟员工 , 你给它下一个任务 , 它就跑到外面去完成一圈再回来向你汇报 。

AI出海31:01

戴雨森31:01

这个是眼见着在这一年发生的跃迁式的四个变化 。 真格在过去投了蛮多这个出海的 AI 的创业团队的 , 非常典型的代表是黑键和 Monica 都超级的优秀 , 所以也想和雨森探讨一下出海的话题 。

因为今年其实在整个说法里面有一句广为流传的是 " 不出海就出局 ", 好像出海变得非常重要 , 甚至至关重要 。

所以首先雨森想问你的是 , 为什么海外 AI 的落地和国内的反差这么的大 ,以至于我们都鼓励英语都说不好的国内的创业者都要去勇敢尝试一下做一做 AI 的出海 ?

Koji 杨远骋31:39

我觉得最核心的原因还是因为 AI 到目前是一个主要提高生产力的技术 ,而在人均工资高很多的欧美 ,以及说他们的对于工具的付费意愿更强 , 所以当你做一个生产力工具的时候 , 比如像我们投的 HeyGen、Monica, 还有 Opus、MaxAI 等一系列这种提高生产力的工具的时候 , 海外用户 , 尤其欧美用户对于生产力付费的意愿比较强 。

当然他们付的是美金 , 所以这个绝对金额更高 , 对吧 , 这个我觉得是最重要的因素 。 那么同时呢 ,也有一些其他的原因 , 对吧 , 比如去海外能够使用能力更强的模型 ,Sonnet 3.5 或者这个 GPT-4o, 所以能够解锁更多的应用场景 , 确实国内的大家能用到的模型可能还是有些差距 。

然后确实同时现在当一个产品你做好之后 ,因为大模型本身它可以处理多语言输出和输入 , 所以那我既然已经做了 , 为什么我不去把它面向全球化去推行呢 , 对吧 。

然后我觉得普遍现在采用了订阅制 , 这个在国内确实做订阅制的付费是比较难做的 ,但是海外订阅其实已经被去接受了 , 对吧 , 这样对于创业团队来讲 , 它做商业收入的能力也提高了很多 。

戴雨森32:50

所以你认为这一代的 AI 的创业者 ,他需要具备哪些特点 , 然后你会鼓励他出海 ? 因为我想你也不会鼓励所有人出海嘛 。

Koji 杨远骋32:58

对 ,其实我们现在觉得当所有 VC 都劝创业者出海的时候 , 这往往就说明市场太热了 ,因为我们一直在警惕这种所谓的特别共识型的观点 。

而且我们觉得大部分的中国创业者出海肯定是一个 Debuff 而不是 Buff,因为毕竟是客场作战 , 对吧 , 你要解决很多你原来在国内不需要解决的问题 ,以及去了解很多你原来并不了解的用户 。

所以首先我觉得中国的机会其实很多的 , 像我们在国内投的 , 像比如 Kimi, 对吧 , 像宇爱维吾这些 AI 公司其实增长得更快 , 只是说它的商业化可能会稍微慢一点 ,但是我觉得这也是互联网时代我们学到了一点 , 对吧 。其实想想看 , 互联网时代当 eBay 那个时候很早商业化 , 就是抽佣金的时候 , 淘宝先免费 , 然后最后做成了更牛逼的商业模式

, 对吧 。 所以我觉得其实在中国和在欧美市场 , 本来适合的商业模式就不太一样 ,并不是每个团队都要去出海 。

戴雨森33:49

那在今天已经选择要做出海的中国的创业者 , 我相信有很多人在听我们这一期的播客内容 , 那雨森你会有一些什么样的建议给到他们吗 ?

Koji 杨远骋33:58

我觉得出海其实跟在任何地方做产品一样 , 首先要非常了解用户的真实需求 ,而出海的一个过程中, 因为隔了一个语言或者地理位置的隔阂 , 所以这一点变得更加重要 , 尤其在企业服务领域 。

因为之前我们也见到蛮多中国做企业服务的创业者觉得咱们的工程师能力很强 , 解决问题的能力很强 , 所以他们觉得出海可以去拒绝别人。

但是很多时候我觉得咱们的团队知识力很强 ,但是定义关键问题 , 这个是需要去实地的去调研和真的很了解你的客户的 。

所以尤其是在这种需要以销售驱动的领域呢 , 我们觉得这个时候一定要找到有 Go to market 经验的专家 , 甚至说团队要去到这个对应的目的地 。

当然比如说像 Monica 这样的偏用户全 C 端的产品 , 那这个需求可能是相对比较普世的 , 或者比较容易理解的 , 那这个可能倒不一定 。

但是针对这种企业的 ,其实我觉得是一定要人要出去的 。 当然我们看到有很多搞差边的 , 对吧 ,因为差边这个需求理解是最容易的 , 你这个全人类可能都一样 。

所以这个是第一个 , 就是真的搞清楚用户和需求 。 第二个我觉得普遍做得好的团队的共性呢 , 就是要想清楚并且找到一个低成本高回报的营销策略 。其实我们看比如 HeyGen、Monica, 包括 Vigo, 对吧 , 这些中国出海比较好的产品 ,其实往往都是把像 SEO、 社交媒体传播呀 , 或者做好的内容进行病毒式传播 , 这些营销策略给用得比较好 ,而不是简单的去做投流的打

法 。 当然如果你的产品变现能力很强 , 对吧 , 这个时候也许做投流能把这个 ROI 算过来 ,但基本上现在投流都很贵 , 所以怎么样能够巧妙地去做营销 , 尤其比如可能通过产品的特性 , 这种病毒式的营销 ,其实这些变得非常重要 。

所以尤其是把海外的社媒像 Twitter 这些平台给用好 ,其实是跟在国内挺不一样的 , 对吧 ,因为在国内大家非常习惯了去投信息流 、 去投流 , 通过很厉害的投流方式去做 ,而在海外我觉得更加要巧妙地去做 。

做产品的执行力往往都很强嘛 , 所以无非就是说做什么和怎么推广 , 这两点可能是大家普遍遇到比较有挑战 , 或者说做好了就会比较加分的地方 。

戴雨森36:06

其实大家还有一个点 , 就是觉得这一波做 AI 硬件的也蛮多的 , 然后做 AI 硬件就是可以特别好地利用到中国的优势资源 。

那在 AI 硬件领域 , 雨森你们在过去一年有看什么投什么吗 ?

Koji 杨远骋36:19

AI 硬件我们看了蛮多项目的 ,但说实话我觉得硬件其实看上去很美 ,但不一定真的那么好落地 。

过去其实落地比较好的还是这种 , 比如说海外已经把产品原型给打出来了 , 我们去把它做得更快 、 更便宜或者更小的一个过程 。

当然我们也看到一些团队 , 比如像 Claude, 确实做出了很有创意的产品 ,但我觉得整体来说硬件的扩张速度其实都没有那么快 , 当然软件反而还是更加适合现在 AI 扩散的一个载体吧 。

所以我们对于硬件我们一直都是比较谨慎一点的 。 当然我们也就是有投这样的创业者 ,但就是我们整体并没有像有的基金确实投了很多 。

我自己对于 AI 硬件我一直是觉得 , 包括像当时比如说 Rabbit、 像这个 Humane 这些出来的时候 , 我自己都是持比较谨慎的态度 。

戴雨森37:10

好 , 那我们进到今天的第二部分 , 我们将和雨森一起来聊一聊 Devin。 那首先要和大家特别说明的是 , 我们今天会用非开发者的视角来聊 Devin,因为我俩都不是专业的工程师 , 虽然学了 7 年的 CS,但毕业之后就一直做产品经理 ,也是直到半年前 Cursor 发布之后才重新开始写代码 , 应该是说重新开始命令 AI 帮我写代码 。

Agent元年37:10

戴雨森37:33

但另一方面 , 正是因为我和雨森都是非开发者的背景 , 这反而让我们可以用独特的视角去感受和体验 Devin,并且去预测一下 AI Coding Agent 乃至更广义的 AI Agent 将如何改变每个人, 就不只是程序员在未来的生活和工作 。

因为我们还是认为这一代 AI 编程技术 , 它最终会沿着两个方向去发展 , 一个是服务专业的程序员和开发者 , 第二是赋能所有的像我们这样的非开发者 ,而后者它的商业价值和应用前景可能是更深远和广泛的 。

那第一个问题想问一下雨森 , 我们在 Devin 发布的第一天 , 你其实就花了 500 美金去充值 ,但你充值了 Devin 之后, 第一个用 Devin 做的事情是什么 ,以及你用它做的让你印象最深刻的事情是什么 ?

Koji 杨远骋38:20

Devin 在安装完成之后呢 , 它有一些推荐的任务 ,其中有一个就是它会把你的名字带进去 , 说在网上找找你的信息 , 给你出个个人网站 。

然后我让它做了我让习医生做的典型工作 , 比如说我给它一个任务是说我们要改一改我们的这个真格基金的这个价值观宣言 , 英文叫 Manifesto, 然后我说你去找一找美国有哪些顶级 VC 他们的 Manifesto 是什么 。

这是一个典型的 , 就是说你大概需要找什么 ,但是呢 , 这需要有一些信息收集 、 整理和解决问题的能力 , 然后我就看它去做 。

这里面有很多很有意思的点 , 比如说它首先要确定什么是美国的 Top VC, 所以它要先去像这个 PitchBook、 像去 CBInsight 这些网站去找有没有一个 Top VC 的列表 , 所以它首先做了个计划 , 它先找到了这它认为 Top 的 10 家 VC, 我看看列表确实是比较 Top 的 10 家 , 然后呢 , 它就一个一个地去官网去找他们的这个 Manifesto。

但是这个 Manifesto 这个东西在 VC 里面其实有不同的叫法 , 比如说红杉叫 Ethos, 这个在 Founders Fund 叫 Manifesto,在别的地方可能叫 About, 或者叫 Philosophy, 反正它有不同名字 ,并且还有几个 VC 的网站上是没有这么一个内容的 , 就是它没有一个关于说我是谁 、 我的价值观的描述 。

所以我就看到 Devin 在这个过程中呢 , 它就尝试去理解这个任务 , 找到最符合的内容 , 比如说它在找 Excel 这家 VC,也是美国非常有名的 VC, 它就发现官网上没有这样的内容 ,但它就去那个 News 里边找 , 找了找去找到 23 年他们有篇文章 , 那个里面介绍了这个 Excel 的这样一个价值观方法论 , 它把那个拿出来作为它要找的这个内容 。

所以你可以看到它像一个初级人类员工一样去解决问题的一个能力 , 对吧 , 就是它不是很机械地说你网站上有没有一个叫 Manifesto 的东西 , 没有 , 那我就没找到 ,而是说我去看一看你整个网站上面有没有一个东西比较符合这个内容定位 , 然后去寻找 。

所以它最后就给我一个这个 10 个 VC 对应的 Manifesto 的这么一个 Markdown 文件 。 当然这里面有很多 AI 模型现在常见的问题 , 比如说它有时候它容易偷懒 ,因为我要它去把这个全文拿下来 ,但是它在有几个 VC 的这个内容里面呢 , 它就给自己做了一个 summarization, 做了一个总结 。

这个是我们在很多时候用现在 AI 的 Chatbot 也会遇到的问题 , 就是 AI 它不给你全文 , 它因为 Token 数的原因啊 , 或者什么给你一个缩略 , 所以这个时候就要告诉它说你要给我 exact 这个全文的文本这些 。

所以它其实跟一个真正的实习生一样 , 需要教导 。 那么但是呢 , 我觉得这个里面它体现的规划能力 ,以及说它对于这个不能直接解决的任务去创造性地解决的能力 ,其实是非常让我觉得非常有意思的 。

当然我觉得这可能不是大家用 Devin 的一个典型场景 ,因为我没有让它去编程 , 我让它来做的是一个就是语言模型 Agent 的常见的事情 , 所以我也完全可以想到我们现在有适合 Coding 的这个 Devin, 对吧 , 那么我们完全有适合做这种文本工作 , 这种比如说适合金融界的工作或者法律界的工作的对应的 Agent 的产品 。在这个里面 , 我认为只要我定义的这个工作是一个人坐在

电脑前面 , 通过使用电脑 、 上网 、 使用软件能够去解决的工作 , 那么它大概率其实都能被或多或少地在这个 Workflow 里面能够得到体现 。

所以这个还是蛮让我觉得惊艳的 。

戴雨森41:33

所以想问的是 , 你在第一天到现在 ,其实时间也不长吧 , 两周左右 , 你感觉自己体验到了一个什么样的未来 ?

Koji 杨远骋41:41

当时我体验了之后, 我当时就感觉到它作为第一个真正能用的这种叫做真正的 Agent 的产品 , 它的出现可能标志着人类历史的一个重要时刻 。

为什么我这么说呢 ? 因为我觉得人类历史上发明了很多工具 , 对吧 , 甚至有人说人就是能够使用工具的动物 ,但所有的这些工具呢 , 基本上都可以分为两个分类 。

第一种就是说需要持续注意力的工具 , 比如说像这个电钻 、 像锤子 , 或者像我们键盘鼠标这样 , 它需要我们持续的注意力关注和输入 。

第二种呢 , 就是说叫做机械重复的自动化工具 , 比如说洗衣机 , 我按个按钮它自己去洗 , 对吧 , 或者自动售货机流水线这样的 , 它是可以去不需要我的关注 ,但是它只能解决重复的东西 。

所以我们其实一直在寻找第三种 , 就是说不需要我持续的注意力 ,但同时又能自己规划 、 自己去解决问题的 。

那么这种其实就是所谓的 Autonomous Agent, 等于自主的这个代理啊 , 或者叫 Agent,Agent 我觉得这个翻译可能代理的不是特别好 。

那么这种产品在原来的构想里面 ,其实可能只有像 Waymo 这样的这个产品在硬件上实现了 ,在软件程度上其实我们一直没有看到这样产品出现 。

去年有一些像 Auto-GPT 这样的尝试 ,但是那些都还是在产品原型的阶段 。 那我们看到 Cursor 呢 ,其实我发现它们定义了一个真正的 Agent 的产品需要具备的很多特点 , 比如说第一个是它由于有很强的任务规划能力所带来的异步体验 。

它原来设计的场景就是说在 Stack 里边 , 你可以 Add Devin, 说你帮我去改这个 bug, 然后它自己就去改了 。 它真的需要很重要的帮助 , 它真的进行不下去的时候它会找我 , 或者它把事情做完了它会来找我 。

这跟一个实习生真的很像 , 对吧 , 它可能我跟它交代之后它要去工作了 , 遇到问题它搞不定了 , 实在搞不定了它就会过来找我 ,但是平时它不需要我的注意力 , 对吧 , 这是种异步的体验 。

所以与此同时的话 , 我就可以去 Scale up 这个过程 , 我可以同时给 10 个实习生派活 ,他们去做事情 , 然后这个时候可能我就能去专注去做真的需要我做的重要事情 。

这个是第一个异步体验 。 第二个就是说它在云端部署了虚拟机 , 所以它自己是可以使用浏览器 , 同时呢 , 它未来肯定还能使用更多的软件的 , 所以在这过程中的话 , 它能够完成更多的任务 。

这个和原来比如说 Cursor 和 Windows 是用我自己的电脑 ,在我的电脑上去进行创建是完全不一样的 。 因为大家如果之前用过类似于像 RPA 这样的软件 , 大家会意识到就是你会在它做操作的时候你什么都不敢做 ,因为你怕打断它的流程 。

那毕竟是 AI 在用你的电脑 ,但是 AI 在用它自己的虚拟机 ,也就是说跟我们招一个实习生 , 我们要给它配台电脑一样 , 这个它带来的灵活性是非常不一样的 。

第三呢 ,Devin 在做事情的时候 , 它跟一个真的员工一样 , 比如说咱们招个实习生 ,他第一天肯定会搞砸很多事情 ,因为他不知道在我们这个组织里面很多事情要怎么去做 。

所以当他做一件事情的时候 ,他会逐渐地意识到我需要记得一个这样的知识 ,在这里面它被称为 Knowledge, 它会主动地提示说我学到了一个知识 , 比如说在找信息的时候要尽量去官网找 , 它会有一段提示 , 然后我会说确定你学到了这个好的知识 。

这跟我们去跟实习生和员工做 Review 是很像的 , 对吧 , 我们说他可能写个工作总结说我学到了这几点 , 我说对 , 这几点做得很对 , 对吧 , 这样的话说话理论上是可以不断地去积累在这个组织里面专有的这些知识 , 从而让它变得更加适应这个组织 。其实我们在招人的时候也是 , 对吧 , 一个员工刚来的时候 ,他估计他的这个价值是相对有限的 ,他需要持续地

学习 , 让他更适合这个组织 。 但是之前在用工具的时候 ,其实我们都期望这个工具一打开就可以用 , 对吧 , 我们不会期待说一台电脑要不断地学习越来越好用 。

但是在 Devin 我们是真的看到的时候 , 它具备一个类似于人类员工的成长曲线 , 虽然这个还比较早期 ,但是我们发现这样一个范式的转变是非常重要的 。

那么第四点呢 , 就是 Devin 提出了一个根据它完成的任务进行收费的过程 , 所以这也是为什么一上来大家觉得 500 美金很贵 ,因为 500 美金对应的其实是 250 个 ACU, 每个 ACU 大概是 15 分钟的工作 , 所以它换算出来就是一个小时大概需要 8 美金 。

这是什么概念呢 ? 也许大家在中国的听众会觉得这个很贵 ,但是实际上在加州最低最低的工资标准是 16 美金 , 就是麦当劳跟你包汉堡的小哥 , 对吧 ,他也是要 16 美金一个小时的 。

所以这已经是低于加州的最低工资标准的一半 ,并且我们可以看到就是在这个过程中,AI 的算力会持续地提高 , 算力成本会持续下降 , 对吧 , 所以这 8 美金买来的一个小时的算力 ,其实在未来一定可以做更多的事情 , 具备更强的能力 ,并且对于招一个人来讲 , 还要处理很多人事的问题 , 还要有物理的空间 , 对吧 , 还得去处理很多管理问题 。

但是对于 AI 来讲 , 它是一个 7×24 小时不知疲倦 、 一直很勤奋的员工 , 所以当它真的能够去不需要我的注意力去完成额外的任务 , 所以能够跟一个实习生对标的时候 , 那作为企业的这个所有者 , 对吧 , 那我可能要考虑的就是我到底是请个实习生呢 , 还是我用一个 Devin Agent。

所以我朋友说一句话我觉得特别有意义 , 就是说程序员喜欢 Cursor,因为 Cursor 是程序员的 Copilot, 它能帮助程序员成为一个 10 倍效率的程序员 ,但是老板的角度喜欢 Devin,因为老板是考虑怎么样花钱能买到生产力 ,而 Devin 给我们看到了一个潜在的范式变化 , 就是说我能够通过花钱的去 Scale up 这个生产力 , 所以我就会觉得 Devin 其实让我看到了一个工作的 Scaling Law。

戴雨森47:04

哦 , 一个工作的 Scaling Law。其实我觉得在很多 Coding Agent 里面 , 第一个任务往往都是做一个个人网站 , 所以我开玩笑说我们试用这些产品做了好多个个人网站了 , 这就是新时代的这个 Hollow World。

显然这个任务它完成得不错 ,因为这其实从网上找到一些我的信息是比较容易的 , 它可以快速搭建一个网站 。

对 , 所以其实 Devin 的出现 , 它不是只是让大家觉得 AI Coding 就 AI 编程变得很厉害 ,而是它定义了一个新的交互方式 , 就大家可以看到哦 , 原来 AI Agent 可以如此工作 ,因为我和雨森在 Devin 里面是用了一个团队账号嘛 , 那其实我能看到它的所有的任务的这个进展 , 就能看到它在怎么用 Devin, 然后 Devin 又怎么回应它 。

像刚才提到那个任务 , 我有一个补充是在刚下达这个指令之后 ,其实 Devin 会第一时间告诉你我的工作计划是什么 , 就它会像给老板汇报一样 , 向上管理说第一我要去就是理解这个任务 , 我要拆解这个任务 , 我会分成 1234 步分别去做 , 然后它每做一点什么事情又会回来主动跟你汇报 , 然后在它遇到它进行不下去的事情的时候 , 它还会告诉你 ,

让你给它一点指导 , 这个是很惊艳的 。 然后第二是其实雨森刚才那个任务还有第二部分 , 刚才没有提到的是把 10 个顶级 VC 的 Manifesto 取下来之后, 雨森有让他说你去做一个网站 , 然后正好在那个时候 ,他花了一个小时吧 , 差不多做了第一版出来 , 然后做得很烂 , 然后正好我在那个时候进了 Devin, 看到了他交出来的这个报告 , 我就想着好 , 那我接着来把

这个任务给它布置下去 , 所以我给了它一些新的指令 , 比如说给它一个参考网站说这个风格不错 , 你照着这个风格样式再去调一调这个网站 , 然后同时当时我想试为 Crop 的那个生图生插图的 API, 然后我把 API 文档和 API Key 丢给它 , 说你再给这 10 篇 Manifesto 分别去做一个插图 。

然后这里我想表达的就是当时我有一种好像真的在一个办公室里面 , 然后有一个实习生一开始虽然在帮雨森做事 ,但是现在他做了一个报告回来 , 雨森下楼吃饭了 , 然后我看到了他的报告 , 我给他一点建议说其实雨森想要的是那个 , 你再去完善一下, 待会回来他就可以看了 。

有这种像真的在用一个人的感受 , 所以这也是为什么我们说它是一个真的 Agent,因为 Agent 翻译过来它是人嘛 , 它其实不再是机器的意思 , 它是某种助理的意思 。

所以这是为什么感觉这个 Devin 它产生了一个新的像用 Agent 一样的范式 。

Koji 杨远骋49:27

对 , 这里面还有很多细节挺有意思的 。 我再举一个例子 , 就是在我们另外一个朋友的任务里边 ,他其实是要 Devin 去 LinkedIn 上去抓一些人的信息 , 比如说 OpenAI 的所有中国人, 然后 Devin 显然他没有 LinkedIn 账号 , 对吧 , 所以他就需要去找他的用户说你能不能帮我输一下这个 LinkedIn 账号 。在这个时候因为 Devin 他启了这个虚拟机 , 所以它是有个互动模式的 , 就是我作为用户 , 我可以在

这个虚拟机里边输入我的 LinkedIn 的账号和密码 , 然后 Devin 就继续用 。 这个就很像是什么 , 比如说我们招了个实习生 , 然后给他配了台电脑 ,但是他没有 LinkedIn 的账号 , 所以他说老板你来输一下这个你的账号 , 好 , 那我把账号输进去之后 ,他就继续用我登录好的账号去用了 。

所以这个其实也是为什么虚拟机这个事情变得很重要 ,因为它可以在那个里面去做很多的操作 ,而不打断我的工作流程 , 否则我的电脑就被它借走用了 , 对吧 , 像 Cursor 啊 、Windows Server 其实都是它借我的电脑用 , 那个时候我什么也干不了 。

所以这种异步的方式让我可以同时给 Devin 布置很多的任务 , 它是个并行的一个线索 , 那我只需要花算力就行了 , 对吧 , 这个其实很重要 。

比如像日常生活中我有一个实习生 ,但如果我有 10 个实习生 , 每个我都可以让他做很多事情 , 那这个工作的提高可能是一个指数级的提高 。

戴雨森50:42

对 , 这个感觉用 Devin 就好像想起了当年说人人都是产品经理啊 ,但今天就变成了人人都是 CEO,因为和 Devin 互动的过程当中, 好像只需要做 CEO 最喜欢做的三件事 : 第一 , 下指令 ; 第二 , 检查工作 ; 第三 , 就是高水平一点的 CEO 还可以给他一些启发和指点 。

Koji 杨远骋51:00

对 ,其实这里面我觉得很多人在使用 Devin 或者这样的 AI 产品的时候 , 都会有一个遇到一个问题 , 就是我要做什么 ,以及我怎么提出这样的需求 。

因为试想如果我们招一个员工 , 如果我就跟他一句话帮我写个淘宝 , 那这个肯定他人是做不出来的 ,但为什么我们很多时候可能对于 AI 有一些不切实际的想法 , 说你给我做个淘宝它就做出来了 ,其实这也是不对的 , 对吧 。

确实我们每个人都要去想我到底要做什么 , 这是一个问题 。 很多大家面对一个很强的一个模型 , 它其实有很多的智能和能力 ,但是这个时候你有没有想做的事情 ,以及你能不能把你想做的事情以一种更加合理的 、 容易理解的 、 更加结构化的方式提出这样的需求 。

就跟我们自己在做 PM,在做设计师 、 程序员的时候 , 我们也很烦那种提他自己都没搞懂需求的老板 , 对吧 , 比如说什么五彩斑斓的黑这样的需求 。

但很多时候当我们自己成为 AI 的老板的时候 , 我们能不能做一个好的老板 , 这个其实是可能接下来就是说每个人都要学会当老板的一个过程 。

戴雨森51:59

其实用 Devin 还有一个很强的感受 , 这个也是 Head Cloud 前段时间提到的 。他提醒大家 Devin 有一个非常厉害之处在于 , 它可以去帮大家把人类历史上的智慧结晶全部用起来 。

这句话怎么讲呢 , 就是说其实我们要完成一个任务的时候 , 很多时候我们是不知道世界上已经存在了这样的轮子的 ,不知道世界上已经存在这样的工具的 ,因为很多这样的工具它是以代码的形式 、 以代码库的形式放在 GitHub 或者放在 Hugging Face 上面的 。

那其实要把这样的代码下载到本地 , 然后部署到机器上 ,并且和你的其他的这个工作或者其他的软件程序给联通跑起来 , 这个事情 1000 个人里面可能只有一个人能做到 。

对 ,但今天有了 Devin 之后, 理论上人人都可以做到 ,因为你可以自然语言像老板一样下指令了 。 这个举一个具体的例子 , 就是比如说现在我们要做一个国际象棋的一个应用 , 那在过去国际象棋的规则 , 你只是去把这个规则写出来 , 大概就需要花几百行甚至上千行的代码 。

那你可能会想说那我去搜一下是不是已经有人把这个规则写成一个代码库来调用 ,但是你可能会搜出 Google 的几百页的结果 , 那在这里面什么是最好的 , 什么是最佳实践也不知道 。

但是有了 Devin 之后, 你可以把这个命令下给它 , 它会用它的分析方式去异步地帮你找到这样的已经现成的程序代码库 , 然后用起来 。

这个带来的价值是所有的已经有前人开发过的解决某些问题的工具或者代码库 , 你可以不再造轮子了 , 你可以站在巨人的肩膀上去用这些经过社区验证的最佳实践来去做自己想要的工具 。

我觉得这个也是 Devin 包括 Cursor 吧 , 大家都实现的一个可能没有那么显著 ,但是还挺深远的价值 。

Koji 杨远骋53:47

对 , 我很同意 , 就是我在 ChatGPT 出来的时候 , 我就有一个很强烈的感觉是 , 如果你的工作中有很多都是复制粘贴或者叫缝合怪的部分 , 那这个是很容易被替代掉的 。

所以大家其实发现最早被 AI 大幅提笑 , 说得好听点是提笑 , 说得不好听是容易被替代的工作 ,其实就是初级美工的这种复制粘贴型设计工作 , 对吧 , 就是把抄一个别人的设计 , 然后初级代码工作者的这种我把这个库自己怎么样把它弄一下, 然后就应用到我的项目里面来 , 就这样的工作其实最容易被替代了 。

所以前端程序员其实面临很大的压力 ,因为前端展示其实大部分时候不需要那么多的创新的想法嘛 , 对吧 。

那在这个过程中的话 , 实际上我觉得对于大家怎么去一个是提出想法 , 第二个是说去创造性地去解决问题 , 这个能力会要求很多 ,而这种找到一个已有的最佳 Solution 把它给用胶水粘起来的工作 ,其实这是 AI 最擅长的 。

那么我们工作中应该大部分的内容都是已经被解决过的问题 , 或者已经被发明的轮子 , 只是以前人类不知道有这些轮子的存在 , 或者也没有办法把它很好地拼起来 。

但是现在我觉得 AI 能够帮我们做到这个事情 , 让我们能够专注于说在做什么这件事情上, 我觉得会变得越来越重要 。

这个其实也让我想到对于我们的教育啊 , 这些会有很大的影响 ,因为我们之前大量的教育啊 , 包括我们的培训都是怎么做执行工作 , 对吧 , 我们怎么具体做这件事情 。

就好像当没有计算器的时候 , 我们要学大量的手算和心算 ,但现在我们可以比如说我要了解这个怎么计算的 ,但是我未必要去做这些计算本身 , 我可以把更多的精力花在做什么 , 提出正确的问题上 。

这个其实也是我觉得对于未来的教育体系啊 , 这些都需要有很大的变化的特点 。

规模定律55:30

戴雨森55:30

所以其实 2025 年是非常值得期待的 。 从 Devin 的发布 , 我们看到的不只是 AI Coding 被 Agent 整个升级到下一个级别 , 那它其实在方方面面就提到的 ,不管是法律 ,不管是商业分析 ,不管是教育 ,其实这样新的范式的出现都会带来颠覆式的革命 ,也意味着各种创业的机会 。

然后刚才其实雨森有提到一个非常有趣的观点 , 就是 Devin 它是一个人类历史上的第一个既不需要持续的注意力 , 又不只是机械重复的工具 , 那这个也意味着让我们好像看到了工作的某种 Scaling Law。

你觉得在这里可不可以再有一点点展开的讲解 , 让大家更理解这意味着怎样的了不起的价值 。

Koji 杨远骋56:16

首先 Scaling Law 我在这里的比方呢 , 最直白的就是说我能够花更多的钱买到更多的生产力 , 或者说这个钱可以等价为算力 , 对吧 , 这其实是挺不容易的 。

大家想有很多公司融了很多钱 ,但是它似乎不能够把钱有效地变成生产力 , 这边需要招人, 需要搭建组织 , 需要做这些事情 , 对吧 。

但是其实随着这种可以异步进行工作的 Agent 的出现 , 导致说我可以把很多任务把它安排给不同的 Agent 去做 , 然后它消耗的是算力 , 消耗的是电力 , 对吧 , 它就可以完成这个任务本身 ,并且呢这个可以并行进行 , 你完全也可以想到说会有一个更加擅长于提出需求 、 拆解需求的 , 比如说产品经理型的 Agent 去指挥很多这个 AI 程序员去工作 , 所以它真的就会形成一个

虚拟的组织 。在这个里边其实它需要的更多的是一个第一你要做什么 , 第二我要有足够的算力和钱的输入 。

所以我觉得在这样一个想象中 ,但是我觉得正在快速变成现实的组织里边 , 可能我就能通过投入更多的钱和算力 ,有效地把工作给 Scale up 起来 , 这个我觉得是叫做说工作的 Scaling Law。

第二个呢我觉得就是我们经常遇到的情况 , 就是有创业者说我有个很好的想法 ,但是我缺个程序员 , 对吧 , 所以好的这个编程执行其实是我们现在还比较稀缺的资源 ,但是当执行本身变成不是一个稀缺的资源的时候 , 做什么变得很重要 。

刚才我说的每个人都要学会当老板 , 这样我觉得我们能看到更多的创业机会 , 就有很多原来因为没有优秀的程序员会被埋没的这样的创业者 , 现在可能会变成有更加多的创业机会 ,也会有更加多的东西被创造出来 。

这个我觉得也是一个我们可以把创业这件事情 Scale up 的一个原因 。其实因为花钱能提高生产力这个事情 , 本来是因为你的 Agent 能够平行进行 , 就是如果我是注意力得放在工具上, 那我注意力是有限的 , 现在我的注意力可以被这个扩展到不同的 Agent 上面 , 所以导致一个人就是它可以下很多命令 , 对吧 , 然后 Agent 去做事情 。

戴雨森58:16

其实说到这个 Scaling Law, 我想到一个比喻 , 就是讲说就是当年这个王兴让我们看一本书 , 叫做 《 领导阶梯 》。

它讲的就是当你成为第一次一个小团队的领导的时候 , 你要有一个重要的认知的变化 , 就是你的产出不再是你的产出 ,而是你整个团队的产出 。

那在今天这个所谓的我们从 Devin 身上看到的工作的 Scaling Law,其实它是类似的 , 就你的产出不再是你一个人的注意力集中在眼前做的这些事情的产出 ,而是你怎么把整个团队的任务下达好 , 把它的这个检查标准设定好 , 团队的所有的产出 , 包括 Devin 的所有的产出 ,其实最后都是你的产出 。

这意味着你其实是用你有限的注意力能够去无限的 Scale up, 只要你能够管理足够多的人和管理足够多的 Agent,而管理 Agent 可比管理人要容易多了 ,因为管理人涉及到更多的沟通协调和更多的情绪价值 。

我理解这个可能也是雨森想说的这个工作的 Scaling Law。

Koji 杨远骋59:15

对 , 王兴推荐了一本书叫 《 领导梯队 》 应该叫 , 它其实这个概念是没问题的 , 就是试想你如果能够成为一家跨国公司的 CEO, 对吧 , 你能够指挥上千人上万人, 你能做什么事情 。

原来我们没有这样的机会 ,但现在可以通过管理 Agent 以及 Agent 去调动 Agent 去近似这样的机会 , 对吧 , 那所需要的就是钱和算力 。

但是很多公司其实根本不缺钱 , 对吧 , 它其实缺的是人才 ,是把事情给执行出来的这样的组织结构 。

所以我相信在这种情况下, 一方面是很有钱的人, 很有钱的公司 ,他们能做更多的事情 ; 另外一方面是说很多有想法的人 ,他们其实可以通过相对比较少的成本去快速地把想法去实现出来 , 然后比如说获得用户的认可 , 获得投资 , 这样我们也会有更多的创业者创新的空间 。

戴雨森1:00:01

对 , 这个就是今年最流行的说法之一吧 , 超级个体 ,也是因为一个人有了越来越多的工具的赋能之后, 包括 Agent 的赋能之后, 一个人可以做原来 10 个人 20 个人才能做的事情 。

哎 ,其实 Devin 发布了不久之后也收到了很多的吐槽和批评 , 这个雨森你会怎么看 ?

Koji 杨远骋1:00:21

很多的批评是关于这个 500 美金的价格 , 就是大家把它 500 美金和 Cursor 比如说 20 美金或者多少去进行对比 。

首先我认为这是一个两种不同的范式 , 对吧 , 一种是需要用我的时间去用的工具 , 所以在这里面它没有省我的时间 , 它其实让我的时间变得更高效 。

所以在做这样工具产品 ,因为我的成本并没有下降嘛 , 所以它其实是等于我的成本加上工具的成本 。

但如果它本身是一个员工的话 ,其实你想那它的对比对象就变成了员工的工资 ,而它只要能够比同等价格招到的员工干更多的活 , 我认为这个尤其在于欧美 , 它就是可以落地的 。

所以我觉得这个价格并不贵 , 很多人一看到价格就说哎这个是不是割韭菜的 ,其实关键是看你怎么看和怎么用 。

那么我发现我也跟一些程序员他们用 Cursor 用 Devin 去聊 , 那我发现在 Devin 这个能力还不够强的时候 , 用 Devin 对于大多数程序员的工作流是一个很大的转变 ,因为程序员他自己懂得代码怎么运行 ,他往往还是希望自己能够掌控全局 。

所以这个时候 Cursor 这样的 Copilot 是一个更适合他们现在 Workflow 的一个方案 。 那么已经习惯了自己用 IDE 去工作的程序员 ,他往往会觉得自己有一个任务要完成的时候 ,他要跟 Devin 去对话 , 等待 Devin 去干活验收 , 这个不是那么的高效 ,他们更希望自己去这个去修这个 bug 或者说写这个代码 。

所以如果你是一个很厉害的程序员 , 你可能不会愿意去带一个笨笨的实习生 ,因为现在 Devin 他就还是个实习生 , 对吧 , 培养实习生也是需要时间和耐心的 。

这个时候可能程序员自己会觉得说我与其等你自己写代码还有一些问题 , 我还给你擦屁股 , 还不如我自己写 , 对吧 , 我觉得这个在技术早期是完全可以理解的 。Again, 我们要把它当做一个人的角度去看 ,并且呢我觉得如果一个人犯错误的时候 ,其实作为管理者我们往往会比较有耐心 ,因为我们知道人是会学习和成长的 。

我今天骂他 ,他可能会记住 , 对吧 , 然后他会有更多的动力去工作 ,他能够经过培训成为不错的程序员 。

但 Devin 其实他是可以学习的 ,但是我们现在对于 AI 的软件和产品 , 我觉得还没有建立起这种他可以成长 、 可以学习 、 可以被管理的预期 。

所以当它出问题的时候 , 我觉得很多用户的反应就变成了说哎呀我买了个工具好贵 500 美金 ,但它居然也会出问题 , 就会大家感觉到比较失望 , 对吧 。

所以我觉得在这个企业引入 Devin 这样的产品的时候 , 对其期望值变得很重要 , 包括 Devin 自己在他的文档里面其实也说 ,他适合首先做一些你会安排给实习生做的事情 , 比如说简单的前端任务 , 修改一些 bug, 对吧 , 给前端加一个比如说 Dark Mode 的一个 Switch 之类的这种工作 。

但是人类其实我也说我们提出好问题的能力其实也是需要学习的 。 所以我经常看到大家说哎给一个说帮我写个淘宝 , 帮我做个微信这样的需求 , 那是远超他的能力的 。

而现在 Devin 跟所有的 AI 产品一样 ,他也是傻傻的 , 对吧 ,他拿了这个任务就说好我来帮你写个淘宝 , 那这个时候肯定你得到的结果都不会很开心 。

所以我觉得怎么用好一个工具是需要学习的 , 肯定还没有到说给你啥需求 , 对吧 , 你都能够直接接得住 , 直接做出来 , 那它就是神了 , 它就不是一个实习生了 。

所以它定位是个实习生 。 但是呢我觉得随着 Devin 能力的提升 , 还有随着对组织环境理解的加深 , 我相信它这个从实习生会变成逐渐变成一个初步的全职员工 , 然后变成了资深的全职员工 , 这个是需要一个接受的过程的 。

那么我觉得 Cursor 是一个在现有流程上渐进式创新的过程 , 它没有说让程序员的工作发生翻天覆地的改变 ,但是 Devin 是个颠覆式创新的逻辑 。

所以颠覆式创新的逻辑往往都会需要很多的适应时间 ,以及不同的 Onboarding 的这个这个过程 。 那么这个可是需要很多时间的 , 可能第一个产品它未必能做到这一点 。

所以我并不觉得比如说 Devin 就一定是那个最后的答案 , 很可能 Devin 只是提出了一个未来 Agent 产品长什么样子 , 我们要真的学会适应 , 学会使用 Agent 产品 , 就跟我们去适应比如说 SaaS 这样的概念 , 适应 Remote Work、 分布式工作这样概念一样 , 都需要很长的时间和一些合适的契机去完成 。

所以我觉得它这个方向上给我们很大的指示 ,但是现在它肯定还是个实习生的水平 。 所以在这个过程中挑错 , 指出它的问题我觉得是很容易的 。

但是我觉得更重要的是它提出了这样一个未来的方向 , 从这里怎么得到启发去做更好的 Agent, 我觉得这个更重要 。

戴雨森1:04:35

对 , 这个就像半杯水的理论吧 , 就有人从半杯水里面看到的是资产 ,但有人看到的也是问题 。

那像刚才我们这个聊到 Devin 的举的第一个例子 , 就雨森很惊艳的是他去完成找 10 个顶级 VC 的 Manifesto 任务的时候 ,他知道怎么去从 Accel 官网没有的这个背景之下去从新闻稿里面找到这样的内容 , 那这个就是一个巨大的亮点了 。他会设定任务 ,他会反思 ,他会自我检查 ,但另一方面这个确实也有很多的问题 , 比如他做出来的这个网页就是丑到不能看 ,但是

看到亮点而不是看到问题 , 看到未来的可能性而不是看到今天值得批评的点 。 就还是那句话吧 , 就是批评者是往往感到正确的 ,但是只有建造者 , 虽然看上去笨拙 ,但他们更有可能会成功 。

然后这里还有一个这个想到老王王慧雯曾经说的一句话 , 如果你相信一件事情终究会发生 , 那就每隔三年做一次 。

而 Agent 其实人类历史上从有科幻开始就一直相信它会发生 , 那也时不时的就会有人去尝试 ,而其实真的是看到 Devin 之后感觉这可能是我们最接近成功的一次 。

好 , 我们再来聊聊 2025 年啊 ,其实整个 2024 年虽然我们聊的也挺乐观的 ,但是整个大环境其实还是时不时的有各种各样的悲观的论调冒出来 。

我尤其记得在第二季度第三季度的时候 , 整个这个语境都好像在讨论 AI 的 PMF 究竟在哪里 。 看上去呢整个甚至是 AI 这一波落地是比预期要难的 。

那我们聊到现在站在 2025 年的开端 , 那一个非常简单的问题 ,Yes or No 的问题 , 就是雨森你对 2025 年是乐观的吗 ?

保持乐观1:06:03

Koji 杨远骋1:06:12

我其实还是很乐观的 。 首先我觉得 AI 应用找 PMF 这本身我的期待就是它没有那么快 。 我经常打一个比方 , 就是虽然很多人说 ChatGPT 的发布把它跟 iPhone 发布做对比 , 说 AI 来到了 iPhone 时代 ,但我始终认为其实它代表的是一个黑莓时代 。

那么黑莓时代和 iPhone 时代有什么区别 ? 黑莓时代当然可能很多听众还没有用过黑莓哈 , 所以我们用 80 后的记忆 , 就是大家在 iPhone 发布之前 ,其实智能手机长得都是很不一样的 ,因为那个时候第一技术它还比较早期 ,并且技术还没有经过足够的发展 , 所以它比较分散 , 大家没有找到一个收敛的路径 。

这样导致特点就是说很多事情想做但做不到 ,并且呢技术本身也很贵 ,并且没有一个统一的开发的标准和产品的标准 , 这样也导致它的开发者比较少 。

所以如果在那个时候你要想去做移动互联网上真正火的应用 , 比如说抖音是很难做出来的 。

这个我也反复有聊到过这个观点 , 就是在黑莓时代做不了抖音 。 而随着黑莓时代到 iPhone 时代 , 它的进步呢是由于技术的进步 , 所以会解锁更多的应用机会 。

当 iPhone 出现之后, 第一技术发展足够好了 , 很多应用是变成可以做了 , 对吧 , 包括它有好的摄像头 、 好的屏幕 、 好的处理器 , 导致很多应用能够从想做变成能做 。

第二呢技术变得标准化 , 所以 iPhone 发布之后手机都长得一个样子 , 大家都发现这个技术方向收敛了 , 对吧 , 然后同时也诞生了更多的开发者 ,因为开发者发现在上面开发很很容易 ,因为这个技术也标准化了 ,也便宜了 , 大家也更理解了 。

所以在这个时候 iPhone 时代诞生了大量应用 。 那么在 ChatGPT 刚出来的时候 ,其实我们也发现第一很多事情想得到做不到 , 比如说 Agent 就是个典型的例子 。在 23 年上半年的时候 ,有一个 Agent 的尝试叫 AutoGPT,其实它提出了很多很好的这个概念 , 对吧 ,也是用语言模型先做个计划 , 然后去检查有没有完成去迭代 。

但那个时候的语言模型太多幻觉了 , 它根本也很难去有效的使用工具 , 它也很难有效的去浏览网络 , 所以它根本就做不到 。

所以这是个典型的在黑莓时代做抖音做不出来的例子 。 但是我们现在看到随着 Agent 在我们刚刚说的三大能力 , 就推理能力 、 编程能力 、 工具使用能力上的进步 , 那现在这个 Agent 的样集就更加有模有样很多了 。

虽然它还有很多缺点 ,但至少已经是一个实习生水平可用的第一步 , 对吧 , 所以这是个典型的技术进步解锁更多应用机会 。

那么我相信最后会把我们从黑莓时代带到 iPhone 时代的一个例子 。 所以我觉得当 ChatGPT 刚出现两年到现在 ,其实我们就看到了这么多的进步 , 首先应该很乐观 ,因为两年时间刚说 AI 编程其实已经从 ChatGPT 的这种你问我答 , 已经变成了 Devin 的你问我做和像 Cursor 的你问我写 , 对吧 , 这是已经带来非常大的进步 ,而这个时间其实很快 。

第二个呢我觉得很多时候 PMF 它其实是来自于技术本身的进步 , 比如说 Cursor 这个产品呢其实是在 2023 年就出现了 ,但是在那个时候它提出的预测下一个 Action,其实这件事情是需要有更强大的模型去进行这样的预测 ,并且去写更好的代码 。

所以可以说是 Sonnet 3.5 的出现造就了 Cursor, 它真的能够完成它要做的事情 , 可以说是 Sonnet 3.5 把它激活了 Cursor 想要 Deliver 这样的产品 。

那么当然 Cursor 的被激活也让 Sonnet 3.5 迅速的成为比如说在这个 AI Coding 领域大家最喜欢用的模型 , 所以它们是个互相成就的关系 。

那同样 Devin 这样的产品要成功 ,其实也需要模型在推理啊 、 工具使用啊这些能力上的提高 。 那 Sonnet 3.5 或者像 4O 现在可能还没有足够到能够把它做好的情况 , 对吧 , 所以 Devin 这个产品形态可能也需要一个更先进的模型去激活它 。

那这个模型是什么 ?O1、O3 或者是什么 , 或者是 Adobe 一个新的模型我们不知道 ,但是它其实有一个产品的模型 , 然后产品等到模型之后去激活产品的场景 , 然后让模型得到广泛的使用 , 它是有一个这样的互惠的过程的 。

所以我觉得这个时候确实也需要技术和模型本身的这段进步 。 然后还有一点是说我们刚刚经历的是移动互联网的成熟期 , 移动互联网的成熟期有个特点是产品非常的容易使用 , 比如说抖音 , 对吧 , 手指动一动就可以了 , 这个微信用起来非常容易 , 小红书都非常容易 。

但是当我们来到一个技术的早期的时候 , 一个产品要使用好一个产品是需要有一些门槛和学习的 。其实大家可以想想看 , 最早的智能手机 , 最早的个人电脑 , 对吧 ,其实最早的互联网包括其实都需要一点的学习才能够使用 。

所以比如说刚才说到现在很多人用 AI,其实远远没有把 AI 产品里面的智能给提取出来了 。 实际上现在的大模型 ,不管是 OpenAI、Adobe 或者 Kimi 啊这些 ,其实模型里面都已经压缩了大量的知识和智能 ,但是我们有没有学会正确的去使用它 , 高效的去提问 , 高效的去把模型里面的智能把它给提取出来 , 我认为大部分人其实还没有学会 。

包括我自己其实一样的 , 我一直都能发现说啊 , 原来我能够从模型中能够让它给我做这样的事情 , 回答这样的问题 。

所以在这个过程中, 实际上我们经历了一个从应用产品的移动互联网时代到需要学习使用的生成式 AI 时代 。

那这个时候大家一上来体验会有点挫败感 , 说哎为什么这个产品有点难用啊 , 这就是技术早期的一个特点 。

所以我觉得很多时候其实应用已经有可能做很多事情了 , 只是我们还不太会用 , 我们还没有变成一个好的提问者 , 或者我们还没有变成一个好的老板 , 这个也是需要学习的 , 或者说这个也是需要当模型能力越来越强的时候 , 它会帮我们做这些事情 。

到时候可能我们又会进入到一个产品的应用级 ,但是现在产品还处在一个跟我们磨合的阶段 。

戴雨森1:11:42

所以大家要多用 , 嗯 ,在尝试的过程中才能知道边界在哪里 ,以及边界现在在怎么样的在不断的拓展 。

而且我想补充一下刚才说的就是技术的和模型的这个新的进步解锁出的新机会啊 , 尤其在 Agent 的这个里面 。

然后刚才雨森说到是三个方面吧 ,其实还有第四个方面 ,是上一期十字路口我们在聊 OpenAI 12 天发布会的时候 , 我们的嘉宾大聪明提到 ,其实这 12 天发布会它有一些特别重磅的炸弹是没有发布的 ,因为出于 PR 上的考虑 , 或者出于不想让竞争对手过度关注的考虑 。

那其中有一个也是对 Agent 至关重要的点在于现在 OpenAI 输出的这个 Function Code, 包括它的结构化输出的能力 ,是能够让 Agent 得到更加精确的指令的 。

这个我觉得也是可能之前有被忽略 ,但是说出来之后感觉还非常 Make sense 的一点 。 再往下 ,在 2025 年雨森你会认为什么样的应用方向是比较容易落地的 ?

落地判断1:12:27

戴雨森1:12:36

这个可能也是现在创业者会非常关注的一些方向 。

Koji 杨远骋1:12:39

我们从过去两年比较容易落地的方向上来看呢 , 我觉得有几个 。 第一个就是能帮客户赚钱的 , 当你这个技术还不是那么完善的时候 , 那么如果还不完善的技术能够直接帮我去赚钱 , 或者在我的商业化流程里面直接去提高效率 , 这个就变得很重要 。

比如说像 Midjourney,其实它是有几亿美金的年化收入的 , 它里面应该有一半的收入是源自于这种广告类需求 , 就是用它去产生这种商业使用的图形 , 去投广告 , 去做这个内容 。

这个其实是一个很实在的场景 , 我本来做这些广告我就是为了赚钱 , 对吧 , 现在我能够以更快更好的速度去做这样的广告内容 。

像我们投的 Heygene 其实主要也是被用于营销场景 , 对吧 , 大家去用它做这种视频的这种宣传型的广告 , 视频宣传内容 。

所以在这里面能够首先帮客户赚到钱的 , 我觉得是技术 , 它在早期的时候大家愿意去花时间去使用去琢磨的一个领域 。

第二个就是说能够真的在重要的任务上提高 10 倍以上生产力的 ,因为一个好的技术如果你只提高 50% 的生产力 , 那其实大家可能手下还有很多主力 , 一定是说这个东西它的生产力提高非常非常的强 , 比如说像 Cursor、Devin 这种对程序员绝对是 10 倍生产力的提高 ,因为很多时候程序员花钱去找这个代码库可能就得花很长的时间 , 对吧 , 那这样的话其实

大家使用它的动力还会变得非常强 。 再包括 Perplexity,其实我觉得对于传统的搜索引擎来讲 , 它也是个 10 倍提高生产力的 ,因为原来我去找一个东西 , 比如说我要找 Koji 的资料 , 我得去搜 Koji, 对吧 , 新世相什么的 , 我得去看十几二十篇文章 , 看一堆的内容 , 然后我自己啊 , 原来 Koji 是一个这样的人。

现在我只要去问他 ,他会帮我去看这几十篇网页 , 然后进行总结 , 对吧 , 所以他的这个在这种信息收集提问类的问题上, 比搜索引擎也是要高个 10 倍以上的效率 , 这种我觉得他 PMF 是比较容易找到的 。

第三当然还有就是说满足人性基本需求 , 比如说这种 not a safe for work 这些 , 对吧 , 那这个肯定我想大家也都看到了很多这样的这个场景 。

整体来讲我觉得是要不然能赚钱 , 要不然能够帮我提高非常高的效率 , 这两个如果能够有一个能够实现就非常的好 。

戴雨森1:14:39

那有什么样的应用方向是觉得大家要稍微回避一下, 就做起来有点难度的 ?

Koji 杨远骋1:14:45

我觉得第一个就是说在移动互联网里面 , 很多的赢家都是这种杀时间的应用 , 对吧 , 大家其实在中国可能大家都习惯了说我做这个应用 , 用户粘性很高 , 用户花很多时间在我这个上面 , 然后我去投广告 , 结果是赚钱 。其实字节 、 小红书 、 快手其实都是这个范式 ,但我觉得这个是移动互联网它也有的一个范式 ,因为它是一个新的设备 , 可以让

用户原来无法去获得信息 、 无法去上网的时间变得可用 , 对吧 , 所以它是一个从 0 到 1 起来的逻辑 。

当然现在当已经像抖音这样的应用占用我们大量的时间的时候 , 如果 AI 应用一上来就要跟这些很成熟的玩家去比杀时间 ,也就是说我觉得之前大家做 Character.AI 做这些产品的时候 , 就会遇到一个你的竞争对手已经非常强大 ,并且已经把大部分时间占完这样一个情况 。

那这个时候我觉得再去做杀时间的应用是蛮难的 。 所以大家会发现最后其实做出来的只有相对比较搞一些这种社区内容的 , 或者说针对小众人群 , 它的这个产品才能够落地 。

而像针对普通人 ,其实 AI 的这种陪伴聊天很难比 , 比如说抖音的这样视频要更加好 , 对吧 , 所以我觉得跟巨头抢时间的应用是要谨慎的 。

然后第二个就是说我觉得要改变物理世界还是个比较难的事情 。 我们刚才说到 AI 写代码 、AI 去使用工具 , 都还是在这个数字世界里边 。在数字世界里边 AI 可以做很多很多的事情 ,但是物理世界 AI 现在连拿一个杯子这样的基础的 manipulation 的操作还是比较难的 。

虽然我们现在看到人形机器人非常的火 ,但是在这个方向上技术的实现路径 ,以及如何 scale up 这个模型的数据 , 这些都还是一些开放的问题 , 都还没有一个明确的一个答案 。

所以我觉得在可能三五年的时间内 , 要改变物理世界的这个应用还是会遇到很多的挑战 。 然后第三也是在这两年其实有不少设备想要替代手机 , 比如说 Rabbit、 比如说 Human 这些 ,他们强调的是说哎 , 你未来要做一个替代手机的东西 , 包括现在大概有 100 个团队在做智能眼镜 。

我自己的看法就是 , 如果你做的这个场景是手机中的一个场景的 , 跟手机的场景有很多重合度 , 比如说也是打电话 ,也是搜周围的信息 、 听音乐什么的 , 那替代手机是个非常难的事情 。

因为目前来看能替代手机的硬件呢 , 基本上都是在做一些手机完全做不到的事情 , 比如说无人机可以飞 , 对吧 , 然后智能手表可以戴在手腕上, 或者智能戒指可以套在手上, 或者像这个这个 , 像这个 AI, 像比如说 Insta360, 对吧 , 它可以在运动场景下使用 。

但凡这个事情 , 比如说像当时 Human 啊 、Rabbit 啊这些 ,其实都是在做手机营出了很好的场景 。 这个时候用户的切换的动力是非常小的 ,因为手机在大部分的场景下已经至少是可以做到 80% 的程度 , 除非你做的这个事情好很多很多 , 或者是手机根本不能做 , 否则我觉得要替代手机会很难 。

然后我觉得在这个里边呢 , 对于 Agent 类的产品 , 我觉得 25 年我们会看到特别多的 Agent 产品出现啊 , 这个里面很多遇到的一个挑战会是说 , 当你要对组织做出很大改变的时候 , 那是不是能够做出这样的改变 。

比如说 Devin 其实就面临着一个说要改变程序员的工作方式 ,他从自己写代码变成要指挥别人写代码 , 那这种工作流的改变对于很多组织来讲是有很多的阻力的 , 尤其在大公司里边 , 对吧 ,其实我们现在可以发现在大公司里面推行 AI,其实还是牵涉到很多数据 、 权限 、 隐私 、 安全等一系列的问题 。

那么如果要改工作流 , 很多人的工作都得发生变化 , 那就会有更大的这个这个难度 , 对吧 , 所以我觉得要对组织做出很大改变的 , 那除非你就是对生产力提高非常多 , 让这个组织有不得不用的这样一个理由 , 或者是说针对这种中小型企业去做 , 否则针对大组织去做大改变 , 我觉得这个很多时候是人性的壁垒 ,而不是技术的壁垒 。

技术浪潮1:18:16

戴雨森1:18:20

我们刚才其实有聊到啊 , 就技术的解锁带来了一些新的机会 。 我们聊比较多的其实还是模型的推理能力 、 幻觉降低 、computer use 这样的工具使用带来的 Agent 这个机会 。

除此之外还有哪些技术的解锁你认为在 2025 年可能带来浪潮式的 AI 的创业机会 ?

Koji 杨远骋1:18:39

我自己做了一些总结啊 , 我觉得第一个就是 Agent, 对吧 , 刚才我们也聊了很多 , 就是 2025 年我觉得会有针对各个领域的 Agent 产品出现 ,他们很多地方会借鉴很多 Devin 的这个思路 , 做这种异步的工具使用呢 , 可以规划的按照工作量收费的 。其实在美国现在有人把这个原来 SaaS 是叫做这个这个 Software as a Service,他把它反过来叫 Service as a Software, 就是我把服务变成一个软件卖给你 ,

就是要或者它叫 Sell work not a tool, 就是我卖的是工作结果 ,而我不是卖工具本身 。 我觉得这个其实会是一个肯定 25 年会有很多尝试 , 很多会失败 ,但是也有的有意思的产品会出来的过程 。

第二个我在想的呢 ,其实我给它一个定义叫做 Scalable personalization, 中文就是可扩展的个性化 。其实我们在互联网的过程中, 比如说我们从内容分发上, 一开始是门户网站 , 对吧 ,是千人一面 , 每个人都看一样的门户网站 , 然后是搜索引擎 , 就是你搜一个关键词可以看到针对这个关键词的个性化内容 ,但是我搜是一样的 , 你搜我搜都一样 , 就是根据每个关键词的

个性化 。 然后是这推荐引擎 , 抖音为代表性 , 对吧 , 就是根据我的 context, 那么主动的把我感兴趣的内容推给我 。

然后后来大家就想到说 , 那我能不能进一步的个性化 , 如果我想看的东西这个网站还没有怎么办 , 那我给你生成出来 。

所以现在像 Sora 啊 , 像这些视频生成 , 大家想的是说我能不能按照你的个性化需求生成你所需要的东西 。

所以这个我觉得是我们看到了一个个性化这件事情是可以被 scale up 的过程 。 因为个性化其实每个人的终局就是我要看到我希望有最适合我的东西 , 对吧 ,但是在过去的时候可能随着技术的局限性 , 我没法得到真的个性化的东西 , 我只能说消费一个 commodity, 消费一个大家都有的东西 。

那么在这个里面我觉得内容上我们其实看到了这样的过程 。 最近有几个应用增长非常快啊 , 一个叫 Bolt.new, 它是一个你能够输入用文本 prompt 去输入得到一个你想要的网站的一个应用 。

它是刚才说到是两个月的时间内超过了 2,000 万美金的 AR, 然后另外有个应用叫 WebSim,其实它概念也很有意思 , 它就是说它像是个 Chrome 浏览器 , 然后你输入一个 prompt, 它也会给你一个你这个 prompt 对应的网站 ,而这个网站肯定在线上是没有的 , 对吧 ,因为它是现场生成出来的 。

那么在软件开发行业 ,以前其实像抖音啊 、 微信啊这样的软件 , 实际上它是需要大量的团队 、 很大的投入做出来的软件 , 对吧 , 比如说我在用微信的时候 , 我可能就不想 , 比如看视频号 ,因为我从来不看视频号 , 可能我想用的微信是可能我需要朋友圈是在第三个 tab 那 ,因为我天天看朋友圈 , 我想点一下就看朋友圈 ,而不是要点进去再点一下看

朋友圈 , 对吧 , 就是已有的软件开发有点像好莱坞拍大电影 , 它是一个非常集中化的过程 , 最后拍出一两个大电影 , 希望每个人都觉得好看 , 这是软件开发的集中化 。

但是有没有可能比如说每个人都拥有符合自己需求的网站或者是 APP, 那这个在原来肯定做不到 ,因为你没有办法去开发嘛 , 除非你特别有钱让别人给你开发一个 。

但是 AI 的个性化能力使得说也许我能够给每个人提供真正个性化的内容 , 这个事情从原来的不可能可能变得逐渐变得有一定的可能 , 或者说至少如果不是每个人都有一个个性化内容 ,也许每一类人有一个偏个性化的软件 、 偏个性化的内容 , 这个其实就会变得很有意思 。

然后包括现在美国有一个应用很火 ,Google 做的叫 NotebookLM, 我相信咱们的这个听众很多人都听过 , 对吧 , 比如说播客这个形式也是 , 比如说你在播客里面能听到的人其实非常少的 , 对吧 , 比如说 Koji 今天请我 , 那他没有请别的嘉宾 , 所以你就没法听到 Koji 和别的嘉宾的对话 。

但是如果我就想听 Koji 和 Steve Jobs 的对话 , 对吧 , 那我现在其实可以通过文本内容灌进去生成一个这样的播客的 。

但理论上来讲 , 我可以现在播客是一个供给非常少数的一个内容 ,但完全有可能说我就想听到我想听的某个人和针对某个话题的对话 ,而这个不是他录的 ,是 AI 生成的 , 对吧 , 所以这也是一种叫 scalable personalization, 就是可扩展的个性化 。

我相信随着 AI 的能力变得极高 , 我们每个人用的软件 、 消费的内容都可以变得越来越个性化 , 这个我觉得能解锁的空间是非常大的 。

当然我们现在需要继续做很多的突破哈 ,但是我觉得这个已经看到一些影子 , 从软件的个性化 、 播客的个性化 、 内容的个性化 。

第三个我觉得就是在 o3 上, 我们其实看到 AI 它的能力呢 , 从普通人的能力逐渐的进化到超人的能力 , 这个其实对于我们发现新的知识 、 潜力的扩张都会有很多的这个价值 。

因为在两年前我们还在讨论 AI 能不能通过图灵测试 , 就是我们会不会把它当做一个普通人。 现在我们觉得普通人的这些指标其实都是很难去衡量 AI 的能力了 , 对吧 , 我自己在想 AI 里面呢 ,有一些不同的 benchmark, 那比如说有一些是普通人的能力的 , 比如说以前用的很多的叫 MMLU, 这个其实就是针对普通人的能力衡量 ,因为原来 AI 远差于普通人, 对吧 , 那用这个

衡量 AI 就可以了 。 但现在发现 AI 能力一下就超过普通人的能力了 , 简单的对话什么的已经完全把它考倒它了 , 对吧 , 所以第二种 benchmark 呢 , 我认为叫做对精英人类的 benchmark, 就是人类在某个领域的专家的 , 比如说 Swiben 是针对程序员的这样一个 benchmark, 它是说程序员写的这个代码你 AI 能不能写 , 然后 AIME 是美国高中数学竞赛 , 就是说美国这些聪明的高中生

,他们能解的题型能不能解 , 然后 GPQA 它是就说 PhD 它的 qualification 的这些考试 AI 能不能解 。 那么我们现在也看到在 24 年年初的时候 , 针对这几个精英人类的测评 ,AI 是很难完成任务的 。

但是到了 24 年年底 、25 年年初 , 我们看到这些精英人类的 benchmark 在 o3 或者是 o1 这样的先进模型下也基本能做到 80 分的程度 , 比如说 GPQA 已经是做到了 70 多分 , 超越人类 PhD 的水平 ,AIME 也超过了美国精英高中生的水平 ,而 Swiben 只已经快被解决了 。

所以我们现在就需要在精英人类的 benchmark 之外的 superhuman benchmark, 比如说现在这个 Frontier Maths, 对吧 ,是陶陶哲轩背书的这样一个这个针对未来的 , 就是说非常难的数学题 , 这个基本上人类要非常非常强的能力才能做出来 。

包括 o3 最近发布它的在 CodeForce 这个上面获得了 2,700 分 , 这是什么概念呢 ?2,700 分的人类相当于是人类中 0.01% 的水平 , 全人类只有 130 多个人达到过这个分数 , 像 AI 的编程能力已经达到这个分数了 。

所以我们的很多 benchmark 已经不够用了 , 我们其实需要去衡量 AI 达到顶尖人类水平 , 甚至说超过人的水平 , 它创造出新的知识的能力 。

这个里面我觉得对于科学研究 、 对于前沿探索 、 解决那些还没被解决的问题 , 我觉得是非常有价值的 。

所以我看到 o3 出来之后 ,其实有人就诟病它说哎呀 , 它怎么做一个这个 task 需要花很多的钱 , 这个这个它的这个算力效果很大 ,但我想说是 o3 它这个它的高算力模式本来就不是给我们普通人任务用的 , 它的定位就是去解决人类前沿最难的研究和探索问题 , 那这个东西贵是很正常的事情 , 对吧 , 那其实我我我们以后会发现这个 AI 的模

型其实在这个日常任务和前沿研究上可能会有分差 , 就跟生活大爆炸里面的肖邓 , 对吧 , 肖邓他显然是个很牛逼的科学家 ,但是他日常任务一塌糊涂 , 对吧 , 那可能有的 AI 模型就更像肖邓去解决这种前沿探索的问题 , 那有的就价廉物美的这个这个像 o3 mini 可能就是说说明人干活了 , 可能是一个程序员 , 还有更加简单的模型 , 就是为了回答一些

端侧的简单的 , 比如说今天天气怎么样 , 这样的日常需求 。 所以我觉得在这里面我们既可以看到日常的这些需求被越来越高效的便宜的解决 , 我觉得也能看到真正的前沿研究里面 AI 跟科学家一起协作 , 然后可能为人类获得新的进展 , 从而产生新的知识 , 这个我觉得是让我觉得非常兴奋的一点 。

戴雨森1:26:33

就是因为今年还有一比较大的突破是在多模态上面啊 ,不管是 Flow 的这个 real time 语音 , 还是其实这一次 OpenAI 发布 , 它放在一个不太起眼的角落 ,但是也被认为其实是 12 天最最最值得关注的 ,是他们的多端到多端这样的多模态的互动 。

雨森你会认为多模态在明年会有哪些可期的创业机会 ?

Koji 杨远骋1:26:53

多模态其实我觉得第一个重要的就是说 AI 怎么理解这个多模态的世界 , 对吧 ,因为你对于文本来讲 , 比如说今天天气很好这几个字 , 它其实是一个非常简单的一句话 , 它里面蕴含了大量你需要看到才能够理解的东西 。

所以意图深千言这个它背后的隐象还是图片里面的信息特别多 , 如果 AI 不能够充分的理解这里面的这些能力的话 , 实际上它的一个智能肯定有很大的缺陷 , 对吧 , 所以它现在等于是一个瞎子 ,但是瞎子也可以解很牛逼的这个数学题 , 这个可能并不妨碍 ,但是它确实要能够具备更加完整的智能 , 所以多模态的理解能力很重要 。

然后 OpenAI 或者是海外的这个先进研究者呢 , 普遍还是觉得生成能力可能不一定是最重要的 , 所以 Sora 现在可能获得的这些资源相对比较少 , 可能在美国的话 , 多模态的生成其实是个相对比较平行的路线 ,因为这个它的落地场景主要是娱乐内容啊 , 主要是这些内容产生 , 所以它跟 AGI 好像大家相隔的就还是有些距离 , 可能像 Adwobik 这样的公司 ,因为他们不做多

模态生成嘛 ,他们就觉得靠文本就能实现 AGI, 就是靠代码靠 API 就能实现 AGI, 我觉得是不同的观点 。 但是我在想多模态的这个话题呢 ,其实我觉得 NotebookLM 给我们是一个很好的启示 , 就是说我怎么把一个模态的内容转换到另一个模态进行消费 ,因为我们原来比如说做 TTS, 对吧 , 我是把一个文本把它转成一个 speech, 这个其实是一个直接转换 ,但是显然把一个文本转成一个

播客 ,不是说把它读出来就完了 , 那个只叫读书尾 , 对吧 , 它是要把它变成一个更适合在音频模态消费的内容 , 那就是播客 。

那同样比如说从文本到视频其实也是 , 对吧 , 我们把三国演义拍成个电视剧 , 那不是说简单的把它真的真的还原 ,是说有艺术的改编 , 同样把视频到文本其实也是 , 视频到声音其实也是 , 对吧 , 所以我们在不同的模态之间自然的转换 ,并且在每个模态有最适合那个模态去进行消费的内容 , 我觉得这个也是蛮让人激动的一个过程 。

你试想假设我喜欢刷抖音 , 那我有一篇比如三体 , 我能够把它变成一个适合抖音消费的内容 , 或者我把它适合播客消费的内容 , 或者别的内容 , 那我觉得在内容的这个消费上会有很多的这个机会 。

当然更进一步来说 , 就是大家觉得多模态的生成和理解对于具身智能会有很大的帮助 , 对吧 , 这个里面我们看到很多前沿的研究 , 比如说最近有一个叫 Genesis 的一工作 , 它怎么样实现就是对物理世界的模拟 , 然后从中进行更多的 manipulation, 机器人怎么去操作现实生活中的物体 , 我觉得这些也是很有意思的研究 ,但这个领域可能我相对最近研究的没那么多 ,但整

体来讲多模态技能转换 , 我觉得确实也是一个非常重要的一个方向 , 尤其开始你说到像 Gemini 2.0, 对吧 , 它也是能够以很高的效率去理解它收到的视频信号 , 虽然它有一些很直白的场景 , 比如说我们生活中有很多东西我们看到是不会用的 , 对吧 ,但是 AI 其实可以很容易的去告诉我怎么用一个东西 ,并且呢 , 如果它的视频生成能力够强的话 , 它可以直接

在我看到的这个视频画面上去叠加一个怎么用它的一个指示 , 比如说我们之前在跟 Google 的这个研究员讨论那个场景是我家有个咖啡机 , 然后呢 , 我把手机对着这个咖啡机 , 然后这个视频流里面直接就会叠加上一个按这个按钮开始煮咖啡的一个视频提示 , 这个视频是生成出来的 ,但是它叠加在这个已有的视频上, 所以很多这些其实都是很有意思

的一个想法 ,但是目前可能需要技术再进一步的进步 。

戴雨森1:30:14

对 , 我觉得 2025 年很可能会看到这样的应用的出现啊 , 包括它和 AI 硬件的结合 , 比如之前看到一个 demo 是戴着 AI 眼镜打网球 , 这个时候它可以给你一些指导 , 就现在对面过来那个球 , 你要如何调整你自己的姿态和接球的方式可以更好的进步 , 所以这些都是挺可期的 。

然后刚才提到那个多端到多端 , 我想再说一说 , 我觉得那个是我最近感到非常 surprise 的 , 这个就是像刚才提到在上一期十字路口里面 , 我们嘉宾说 12 天发布会 , 这个虽然发了 ,但它是放在一个角落的 ,但是他认为这其实最最值得关注的 ,而 OpenAI 不想被竞争对手关注 ,因此是低调的给大家稍微透露了一下, 可是在开发者群体里面 ,他们在一些重点的

开发者那边是有去一对一的给大家推介的 , 这是一个什么事呢 , 就是现在可以同时接收多模态 ,并且同时输出多模态 ,而这种输入和输出是多端到多端 , 大家知道端到端的意思啊 , 那多端到多端其实是端到端的 , 就再 level up 几个级别 。

另一个很有趣的事情是想再问一下雨森 , 我觉得这应该是所有人都关注的 , 就你认为啊 , 生成式 AI Native 的应用的大机会 , 它可能是长成什么样子的 ?

大机会1:31:13

Koji 杨远骋1:31:25

首先我觉得大机会的出现应该首先是在生成式 AI 的技术扩散之后出现的 , 就是如果现在用的人还是属于小众的人群 , 它的大机会可能就还没有呈现出来 , 这个也是我在反复聊的一个观点 , 就是如果我们再复盘一下历史上, 比如说互联网 Native 的应用 , 或者移动互联网 Native 的应用出现 , 那么第一步呢 ,是随着技术的扩散 , 我们用新技术解决老问题

, 比如说互联网里面我们有这个电子邮件 , 用这个新技术解决发邮件的问题 ,有门户网站 , 用互联网解决看新闻的问题 , 然后有自营电商 , 用互联网解决卖货的问题 ,但随着互联网的进一步扩张 , 导致说人都上网了之后才有了社交网络 , 信息都上网了之后才出现了搜索引擎的必要性 , 当买家和卖家 , 还有钱还有物流都建设

好之后, 才出来了平台电商 , 然后平台电商 、 社交网络 、 搜索引擎都是真正的互联网 Native 的应用 ,并且是创业公司做的 ,他们其实是占有最大的市值 。

那么移动互联网的 Native 应用呢 ,其实也是当移动互联网包括硬件 、 智能手机和软件四季网络普及之后, 内容生产者和消费者都用上了智能手机 , 才会出现像抖音 、 快手 、 小红书这样的移动互联网信息平台 , 当蓝领工作者都用上了智能手机之后, 才能够诞生像美团外卖 、 滴滴这样的应用 , 当游戏玩家其实都用上了手机之后, 才能出现像米

哈游 、 王者荣耀这样的 AI Native 的游戏 , 这样移动互联网 Native 的游戏 。 所以移动互联网 Native 的应用出现也是在移动互联网的扩散之后 。

那么在 AI 的这个扩散之后呢 , 我觉得出现的新的 AI Native 的应用应该也会是类似的一个逻辑 , 就是首先我们要有一些应用 , 比如说像 ChatGPT, 对吧 , 可能是我们每个人都有了一个 AI 的这个助手 ,但这个可能它的扩散的规模还要更大 , 就当我们每个人比如说都有了自己的 AI 助手 , 然后我们用 AI 来解决我们工作中的很多问题 , 甚至我们用 AI 来开相当相当的

会议一样 , 那这个时候 AI 与 AI 之间的互动 , 它会产生什么样的一个结果 , 比如说像刚才我们说的 Agent, 那如果在一个公司里面大部分的工作执行都是由 AI 来进行 , 那这个时候对于生产力 , 对于所有的企业服务软件可能产生的这个变化就非常大 ,因为你要去不仅是执行 , 你还要管理这些 AI, 给它们去下达任务 , 进行任务的拆解 , 对吧 , 那这时候它的这个

可能就是原来人类完全做不到的 ,因为人没有那么多的注意力 , 没有那么多的这个精力去做这样的事情 。

另外我在想的一个很重要的主题是说 ,在 AI 时代的商业化怎么进行 ,因为在移动互联网和互联网时代 , 大量的商业化都是通过广告来进行的 , 对吧 ,但是很显然 , 比如说当你在用 Kimi 或者 Publicity 去问一个问题的时候 , 原来搜索引擎里面的广告 , 包括那些页面的广告是没有被看到的 ,其实 AI 帮你去看了这些网页 , 那原来那些广告就没有了 , 那些广告带来的价

值其实也就没有了 ,但这个显然是会诞生很多价值的重构 , 对吧 , 那这个时候我得到这个问题答案 , 那我这个价值对我来说怎么把它提取出来 , 原来广告都是给人看的 , 那可能以后广告是 AI 看到 ,AI 看到就会把这些广告全都给消灭掉了 , 所以这里面对于广告这个商业模式的颠覆 ,其实我觉得也会是很多 AI Native 应用的这个机会 。

戴雨森1:34:34

我们最后一个问题啊 , 就是在 2025 年真格基金和你最感兴趣的投资方向会有哪些 , 尤其是这里面有没有一些是行业的非共识 ,是你们差异化的观点 ?

投资非共识1:34:34

Koji 杨远骋1:34:46

我们差异化的观点 , 我觉得首先就是我们对于突袭杀时间的应用会比较谨慎 , 就是我觉得大家都在按照字节跳动的这个经验去找下个字节跳动 , 就是找一个杀时间的这个留存很高的 , 这个靠投放起量的 ToC 应用 ,但是我自己觉得当字节已经占用了这么多的时间和用户时长的时候 , 那其实下一个杀手应用未必会以这样的范式诞生在

ToC 的领域 , 所以这个是我们就说下一个字节跳动未必长得跟字节跳动一样 。 第二个现在最火的是这个人形机器人啊 , 我们看到有很多的人形机器人本体公司获得了大量的融资 , 我们觉得通用人形机器人现在它的技术路径不管是像 Sim-to-real 还是从视频的角度去训练 , 还是去做遥操作收集数据 , 首先技术路径还没有收敛 ,并且怎么样把大规模

的收集这样的数据其实都还是个开放的问题 , 所以在这个里面呢 , 我们觉得现在这个地方的投资情绪还是比较过热的 。

那么这个人形机器人要真正在物理世界去完成任务 , 甚至大家想着去进家庭做家务啊 , 这个需要的时间还是非常非常的长 , 这个可能比大家目前预计的和投资周期会要长很多 , 所以对于本体呢 , 我们还是比较谨慎 ,但是我们也投资了像灵巧手 、 电机等在做人形机器人的过程中非常重要的上游零部件 , 所以这个里边是我们也是跟现在大家

在这个地方热情相比我们比较冷静的一个领域 。 第三个我是觉得随着 Agent 的出现 ,其实我们发现在美国 AI 在生产力领域 、 企业服务领域的落地是很快的 ,但是中国以前的企业服务 ,因为大家始终觉得中国企业不愿为工具付费 , 所以其实遇到了很多的阻力和挑战 ,其实很多企业服务的创业者啊 , 投资人也受了很多的伤害 ,但我在想其实当一个情绪非常极

端的时候 ,其实往往大家也有反转的机会 , 对吧 , 那如果当卖工具这件事情在中国可能很难成立 ,但是如果卖工作结果这件事情 , 我觉得对于中国的企业来讲 , 如果你真的能够去提供工作结果本身以一个低 10 倍的价格 , 那这个未必是大家不愿意去买的 , 你可以认为说它可能有可能是一种非常强大的 AI 外包 , 只是说这个外包它不是之前的人力资源外包

了 , 它是通过把这个任务外包给 AI Agent 去完成这样的任务 , 那是不是中国企业就一定不会为它付费呢 ,其实我们也在思考 ,因为如果我们一定要在 AI 里面去找 ToC 应用 , 找娱乐的应用的场景 , 我觉得这个其实始终是一个比较难找的场景 ,但是能不能把这个生产力的这个巨大突破和这个中国的产品落地结合起来 , 我觉得企业服务也许不是铁板

一块 ,也许也有可能它的这样一个机会 。

戴雨森1:37:20

那你们看的重点的方向有哪些啊 , 刚才讲的其实是一些非共识 , 或者说你们认为要警惕的方向 , 要值得去多思考的方向吧 , 那重点看的方向有哪些 ?

Koji 杨远骋1:37:31

因为我们始终是一个以创业者为核心的一个基金嘛 , 所以我们并不会在每一年的时候去定一个我们今年可能要看什么样的方向 ,但是如果你要问我个人的看法的话 , 我觉得今年各种形式去让 AI 能去做 Agent 能做的事情 , 我觉得这会是一个非常重要的一个领域 , 然后同时我觉得刚才我聊的就是说怎么样能够实现规模化的个性化 , 这个通过 AI 的编程或者

模态的转换能够实现的这个能力我觉得也很重要 , 包括我们投了一家 AI 教育公司 ,其实也是在想说我怎么样能够通过 AI 让教育这件事情变得足够的个性化 ,因为原来互联网教育解决的其实是教育的规模化问题 , 对吧 , 用互联网的方式把名师的教育下放到更多人呢 ,但是进一步来讲 , 我能不能让这件事又变得个性化起来 , 从而也实现这种规模个性化 ,

这个我觉得其实是 AI 带给我们的一个很大的机会 , 所以我们也是说了华瑞庭的这个与爱为伍 , 同时我们也投资了比如说想做类似于 Brought New 或者这种用 AI Coding 来生成个性化应用方向的公司 ,但这些都还是非常早期 , 所以我觉得肯定很多时候需要很多的这个调整 。

戴雨森1:38:35

OK, 好 , 那我们今天就聊到这里啊 ,2025 年开年的第一期 , 我们聊的时间还蛮久的 , 信息量也很大 , 然后我觉得最重要的其实不只是信息量了 ,而是希望通过这一期内容传递出更多的乐观的信号和情绪 , 让大家可以多行动起来 , 多去创造 , 多去创作 , 然后如果大家想要融资 , 欢迎大家找真格 , 再次谢谢雨森辛苦了 。

Koji 杨远骋1:39:00

我其实觉得你刚才这个结语说得特别好 , 就是我觉得在技术浪潮如此汹涌澎湃的时候 , 虽然有很多问题 ,也有很多还没有来得及落地的想法 ,但是我整体觉得这两年下来落地的速度是远超我自己的预计的 , 所以我觉得我们有很多很多的理由来保持乐观 , 尝试突破 , 花足够多的时间 , 甚至是花一点钱去体验试用最新的 AI 产品 , 感

受到它对于我们有可能带来的这样一个进步 , 我觉得是一个对于我们不管是作为一个投资人, 作为一个创业者 , 或者简单来讲作为一个对未来充满好奇心的人, 都会很有意义和价值的事情 , 当然也多听听十字路口和真格的实话当真播客 , 对于我们也会学习 AI, 了解 AI 也会有更多的帮助 。

戴雨森1:39:45

好 , 谢谢大家 , 祝大家新年快乐 , 拜拜 。

Koji 杨远骋1:39:48

好 , 祝大家新年快乐 。

戴雨森1:39:52

如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 。 最后欢迎你加入十字路口的会员群 , 我们会在群里每天放送 AI 全球新闻 ,并且鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。