开场0:00
欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚 AI 时代的积极行动者 , 和他们一起探索和拥抱新变化 、 新的可能性 。
我是主播 Koji 杨元成 , 联合创办了 《 街旁 》《 新世相 》 和 《 躺岛 》。 我相信科技 , 尤其是 AI, 会在未来 10 年彻底改变社会 , 赋能人类 。
欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性
。
我是主播 Ronghui, 目前在一家专注科技投资的风险投资机构工作 , 之前在 《 第一财经周刊 》 担任驻硅谷记者 。
本周的 《 十字路口 》 呢 , 我们邀请到了 Luma AI 的产品经理 Barkley。 那 Luma AI 是全球领先的 AI 视频模型公司 ,他们前后融了 1.6 亿美金 , 差不多超过 10 亿人民币啊 , 所以他们一举一动几乎都是受到全行业的瞩目啊 ,也被誉为是 OpenAI 的 Sora 头号劲敌之一 。
他同时令我们感到意外的是 , 一个融了快 10 亿人民币的公司哦 , 竟然只有一位产品经理啊 。 我们也很开心能够请到 Barkley 这唯一的一位产品经理来到 《 十字路口 》。
本周呢 , 同样是 《 十字路口 》 的 20 问专栏啊 , 我们给 Barkley 准备了 20 个启发式的问题 , 希望可以和 Barkley 一起来帮助大家在信息繁杂的当下, 建立起对 AI 视频模型这个行业最新的变化 、 最新的进展 , 形成一个清晰而系统性的认知 。
那我们首先有请 Barkley 来介绍一下自己吧 。
感谢 Koji 和 Ronghui 的邀请 。 对 , 我也是啊 , 之前在听了很多期的 《 十字路口 》, 很荣幸能够来上这个播客 , 聊一聊啊在 AI 视频领域的一些啊进展和我的观察 。
嗯 , 我叫 Barkley 啊 , 然后中文名叫戴高乐 , 然后在 Luma 做视频的啊视频模型层的 PM, 主要是负责的是数据和模型评测的这个工作 。
然后我自己是呃之前在呃本科在美国毕业以后在 TikTok 做产品经理 , 然后当时是在 TikTok 的特效组 ,在特效组的时候接触到啊视频生成和图像生成的这个领域 。
后来就一直在做啊一些结合这种 CV 技术以及啊 Diffusion 相关的技术在 AI 特效上的应用 。在 2023 年的 6 月份的时候加入 Luma 啊 , 当时 Luma 还是做一个 3D 生成的公司 , 我们当时在做的是 3D 重建和 3D 生成啊 , 然后大概在 23 年底的时候开始转向去做视频啊 , 然后我也是跟着公司从原来做 3D 方向的啊这些数据和这个一些啊功能转向做视频的 。
最开始是做评测 , 然后到逐渐去 handle 数据和 fine tuning 这方面的工作 。 嗯 , 这是大概我一个简单的个人介绍 。
行业格局3:11
OK 好 , 那我们就开始我们的 20 个问题哈 。 第一个问题是 , 哎我们录播客的时候啊 , 正好是 Sora 发布整整一周年, 但其实好像过了快 5 年、8 年甚至 10 年那么久啊 。
就大家想想这个去年的此刻啊 ,Sora 刚发布的时候 , 那个是呃中国的大年初二初三 , 然后那天这个半夜醒来一摸手机 , 感觉这个朋友圈都在刷屏 , 很震惊 。
然后发布这一年之后呢 , 感觉这个世界是日新月异的在变化 , 尤其在 AI 模型的这个领域 。 那所以第一个问题是想问一下 Barkley, 就你在一线啊 , 感觉 Sora 发布一周年之后 ,在 AI 领域有没有出现呃视频模型的范式上的创新 ?
呃我觉得看怎么定义这个范式的创新 ,在模型层和它的架构上应该是没有什么太大变化的 。 因为啊 Sora 发布的这个时间点啊 , 它其实验证的是视频模型的 DIT 架构 , 就是 Diffusion Transformer 啊 , 这个架构取代了原来纯靠啊 U-Net 加 Diffusion 相关的这个视频的架构 , 然后让整个视频的生成啊以及这个模型的质量有一个巨大的飞跃 。在此之后的我们这些视频模型的
基本上都是 follow 的这样一个 DIT 的这个路线 。 但是在产品上以及在这些功能上面 ,其实我觉得出现了非常多的啊可能算不上是特别重要的范式创新 ,但是它可能是一些逐步的迭代 , 比如说对于啊物理世界的理解 , 比如说对于啊 consistency, 对于一致性保持的这样的一些研究和相关的在产品上体现的进展 ,以及对于人物的生成和动作的生成啊 , 它其实会出现一个逐步迭
代 , 然后不断的有新的模型架构的 improvement 和技术层面的一些更新能够带来的改变啊 。 所以我觉得说是范式创新 ,但可能也不完全是一个 paradigm shift 那样的改变 。
那第二个问题哈 , 就是大家也很会很好奇 Luma AI 啊 ,Luma AI 融了那么多钱啊 , 那你们最近这几个月主要在做一些什么呀 ?
这个有看看方便透露到什么程度 。
啊我们过去的这个月刚发布我们的新一代的 V2 的模型啊 , 这个 V2 我们最开始发的是文生视频 , 然后逐步的也在上周发布了图生视频 。在社区和在 creator community 的反馈都是很好的啊 ,因为它一方面是我们觉得它准确的理解了很多物理世界的规律啊 , 这个可能在过去的一些模型上不能体现的一些物理规律 , 比如说一个小球从一个阶梯上滚下来 , 这样它的
这个对于精准的物理规律的模拟啊 。 另外一个是我们在一些垂类的领域 , 比如说在动漫上面会做了一些啊微调和在他们的数据上的处理 , 然后能够让我们的模型在这些垂直的领域也能表现得很好啊 ,不像过去是一个非常 general 在生成这种呃真实性的视频啊上能够做得很好的模型 。
我们在此之上会在做很多的研究性的工作 ,因为我们对自己的定位是更像一个 research lab, 那这个 research lab 还是以研究为主的 , 所以我们会比如说在实时的视频的生成 , 包括在视频的理解的模型上面会做很多呃前沿性的研究 , 最终的目的也是想让这个视频模型更好的去理解我们现在的物理世界的规律 。
尽管说我们觉得现在的 V2 模型已经做得很好了 ,但是啊我们看到说 Scaling Law 在这个视频模型上仍然是有效的 , 那我们还是可以把这个去推到下一个的新的啊高度 。
其实我会比较好奇哈 , 就是你们做自己的视频模型 , 然后也会关注竞品们的视频模型 。 当每次有新模型出现的时候 , 你们用什么样的方式去评估说这个模型它到底做得怎么样呢 ?
因为感觉这个它不太像语言模型啊 , 就是会有很多的这个标准 benchmark 标准答案 , 比如解数学题 、 解编程题 , 那在视频模型领域怎么去评估一个模型做出来的就是好的这个 benchmark 是一些什么呀 ?
我觉得现在市面上确实有公开的 benchmark 不多 , 对于我们来说 , 我们会自己去定义一些我们通过用户访谈 , 通过对于 creator community 的了解 , 觉得说合理的一些指标 , 比如说呃其中的一个指标可能是美学 , 就 aesthetics 啊 , 那它的审美当然这个审美可能是因人而异的 。
那这种情况下, 如果这个视频的这个视频模型它有 API 的话 , 我们会批量的去跑一批视频 , 然后啊依赖于一个全球的 cross source 的这样一个 network, 然后去做这个视频的评测 , 然后来判断说在美学上可能哪个更好 。
另外一些是比如对真实物理世界的规律 , 这个其实 Google 有一个 benchmark, 我不记得具体名字了 ,但是它是选用了一批他们觉得能够代表这个物理世界运行规律的 prompt, 然后看一看不同的模型在这个这在这一批 prompt 上面跑的效果 。
所以我们有时候也会 customize 一批专门的 prompt 来测试 , 比如说模型在对于真实世界模拟上的效果 。 除此之外的话 , 可能就还有啊对于一致性 , 对于 prompt alignment, 就是它多好的能够 follow 大家的 instruction 啊这样的一些标准 , 就是我们确实非常的主观 ,但是是我们根据 creator 的调研啊 , 根据我们对这个视频模型的这些使用场景的了解去定下的一些评判标准 。
那这就有一个非常直接简单的问题哈 , 像你现在觉得这个全世界谁最强 ?
哈哈啊我觉得客观来讲 , 我我们试过的效果上 V2 啊现在应该是最强的啊 , 就 Google 的这个模型 , 当然所有的模型我觉得都有一定程度的 trade off, 比如说很多时候在 motion 和啊那个 consistency 上面会有一些 trade off, 比如说如果你这个模型的啊动作幅度很大的话 , 那它的一致性相对来说就更难保持 。
如果它的这个美学比较好的话 , 那它的多样性可能比较难以保持啊 , 会有这样的 trade off。 然后包括 inference 上面 , 它的这个模型的大小啊 , 一个模型它效果越好 ,但它有的可能 inference 的时间就会比较长啊 , 对于 V2 来说 , 我们觉得它的效果从纯生成的这些视频的 clip 上面 , 可能是我们目前觉得说啊行业里大家认为最好的 ,但是可能它的生成的时间又会比较长
。
那我们的第五个问题啊 , 就是请 Barkley 来帮大家盘点一下吧 。 刚才只是说了 Luma AI, 你们自己在做什么 , 那大家应该也很想知道主要的玩家都在做什么啊 , 比如说这个在硅谷的除了呃 Sora 应该还有 Pika, 还有 Runway, 还有 Google DeepMind,他们做的 V2 啊 , 然后在国内呢有海螺 、 可灵 、Vidu 还有 PixVerse,其实还蛮多的啊 , 这个竞争很热闹 。
对 , 所以可不可以这个给大家讲一讲他们分别都在干嘛 ?
嗯好呀啊我觉得我可能说的不是特别准确 , 所以啊如果说错的话 , 那就不要怪我 , 这是我的个人的理解 。
首先就是我们觉得比较偏大厂一点的 , 我们已经把 OpenAI 视为一个大厂了 , 就是海外的这边的啊 DeepMind 和 OpenAI。DeepMind 的话就是一直在推进他们的 V2 的这个模型 , 我觉得 DeepMind 还是比较呃广的 ,在结合他们的各种多模态的能力啊 , 像比如说他们最近挖了那个 OpenAI Sora 原来的那个 party lead Team Brooks 去那边做所谓的世界 ,也是世界模型的这个概念 , 然后可能他们会在想在把 V2
这个视频模型推到更极致的同时啊 ,也会考虑说怎么去做多模态的输入和输出 。 那 OpenAI 其实在发布 Sora 以后, 就是在发布了 Sora 的真实的产品以后, 大家的对它的评价是感觉可能感觉比较拉垮啊 , 对大家的就是有一个这个预期落空的这个感觉啊 ,但据我了解就是 Sora 还是在不断的去迭代他们的新一代的模型的啊 ,以及结合 OpenAI 的本来在多模态视觉理
解上的能力啊 , 应该也是更向往一个更加偏 world model, 更加偏 AGI 的这个方向去走 。 这是美国的两个大厂 , 然后 Runway 的话更多可能 focus 在影视领域 , 就是他们会做很多的啊专业的剪辑 , 包括跟影视的一些 studio 合作 , 想在影视领域方面做到啊最好的视频生成的效果 。
我们目前的定位可能啊更加偏 posthuman, 就是我们不一定想去直接去做最高端的这些啊影视啊 , 或者是跟这些大的公司合作啊 ,但可能更多的是在找一些中小型的这些个人独立的啊视频制作者 , 然后我们对 posthuman 的定义是他们的用我们的产品能够省下来的钱 , 能够远超于我们现在产品的这个 subscription price 啊 , 然后我们认为说这对他们来说是一个非常强的 retention level,他们会愿
意为此持续的付费 。Pika 跟我们的区别可能是他们更 focus 在 consumer 端啊 ,因为 Pika 现在在做很多的 AI 的特效啊 , 就通过视频去创作这样的爆款 , 很多这些爆款更多是 focus 在小白用户 , 就可能之前是拿 AI 作为娱乐的主要的用途去圈起这样的一些 trend, 然后通过这个来打入消费者的市场 。
嗯这些感觉是我对美国的这些玩家的理解 , 然后国内的我可能信息了解的更少 。 我的 vibe 的感觉是觉得海螺是一个更偏啊这种争取全球的这个增长的量级的这个目标 , 感觉他们在全球的用户量级是很大的 ,但是可能不一定那么 focus 在盈利的这个方面 , 还是想主要去探索一些不同的国家 、 不同的地区 , 然后大家在一个偏 C 端的场景下的使用可能是什么样的 。
可灵啊我的感觉是他们会更 focus 在商业化的指标 , 就是他们会想说哎怎么把模型做得更好的同时, 能够啊保证这个业务是有一个啊正向的收入和增长 , 然后他们会更 care 说在一些关键的国家和地区商业化的收入 ,以及啊他们每一个这个视频推理生成的这个毛利是什么样的啊 。PixVerse 啊感觉更更偏像 Pika 在美国的定位 , 就更加做特效和啊比较 C 端消费
的场景 ,其他的像 Vidu 和包括腾讯的混元其实我了解的不多啊 , 所以我其实不太知道他们的具体的定位和方向 。
凭着就是简单的感觉的话 , 可能混元更像是就是混元是一个开源的模型嘛 , 所以我感觉更多他们是啊为了构建自己的这种生态 ,Vidu 可能也还是在偏研究和就是 posthuman 的这样一个定位 。
中美策略13:37
那第六个问题就是你自己一线的感受 , 你觉得在硅谷 , 硅谷对国内的这些视频模型也好 , 应用也好 , 大家都是怎么样聊他们的呀 ?
就是一个整体的一个态度会是什么样子的 ,以及在 DeepSeek 前后会不会有一个不一样 ?
呃我觉得分两块吧 , 我觉得一个是从业者 , 然后啊从业者上啊 , 我们其实对国内的视频模型公司 , 包括我特别是负责模型评测的时候 ,其实都会 cover 到 , 所以我们对国内视频公司的效果其实啊是保持持续的关注和了解的啊 。
就确实我觉得在视频模型这一块 , 很多国内公司做得很强 ,其实过去一年我们发现这个其实就是啊在大体上都符符合一个规律 , 就是谁最后发布的模型 , 然后那个模型的效果可能是最好的 ,因为啊 naturally 这个模型 train 了更久的时间 , 然后啊也打磨的更久 , 看过更多的数据 , 做了很多的优化 , 然后也积累了之前模型的一些特点 。
然后但我觉得另一方面是在硅谷的这些创作者们啊 ,不一定是在硅谷 ,但就 in general 在美国的这些创作者们 , 我觉得可能在之前对于国内的这些视频模型没有太多的了解 ,他们可能惯性上会更多的去使用美国这些本土的像 Runway, 像我们包括像 Sora 出来之后, 还是吸引了很多艺术家去用啊 , 然后这些 creators 他们在之前可能也只是在 Twitter 上面看到了一些关于可灵 、 关于啊海螺的这
些信息 , 然后有的这些比较高端的 creator 他们可能尝试去用了 。 嗯但我感觉是啊 DeepSeek 以后出圈了之后, 会有很多的这种啊 Twitter 的 post 就说哎 , 大家在关注 DeepSeek,也要关注一下就是中国的这些视频模型公司 , 然后看说他们的效果其实也都挺好的 , 然后就会有各各种就是自来水去啊宣传可灵和海螺的效果啊 , 所以也会可能看到说啊 , 当然这个同样也是
因为可灵和海螺都在 。 特别是可灵吧 ,在呃 DeepSeek 发布的这段时间 ,也持续的推出了新的模型的版本 , 然后会吸引大家更多的关注 。
那我们第七个问题哈 , 就其实刚才在我们聊到各个公司的时候 , 我听下来好像是有两个大的路线 , 一个路线是比较偏呃用户端的 , 另外一个路线是比较偏研究端的 。
那在你看来呃怎么去理解这些不同的路线的选择 ,以及选完路线之后呃都是谁选了什么路线 , 然后选完之后大家这个工作重心会出现明显的不一样吗 ?
呃我觉得其实这些差距在一开始 , 特别是在现在这个阶段 , 我觉得都不明显啊 ,但我觉得这个很取决于创始人他的愿景和想法是什么啊 。
像啊我们是一直在坚定的说要去追求一个呃更大的一个视觉理解的一个视 , 就是世界模型 , 然后我们认为说这是通向 AGI 不可少的一部分 , 所以我们在研究上不会专注于只是在视频生成本身 ,而是同时会做很多视觉理解的模型的研究啊 , 然后可能也会做一些就是在前沿领域 ,在成功的概率上可能看起来目前不大 ,但是我们觉得如果它有概率能成功的话 , 会是一个新的突破
的这样的一些方向 。 嗯那我觉得这个是需要很大的一个是愿景的支撑 , 另一个是持续的投入的 ,因为对于 research 来说 , 一个很典型的特点就是你永远不知道 research 能够产出什么东西 , 很有可能 10 个 research 里面 9 个想法都是 fail 的 , 就是最后发现是不可行的 。
但如果有一个可行的话 , 那 scale up 以后能够起到出其不意的效果啊 , 我觉得就是 Sora 的一个范式创新就是这样的 。
嗯但是这个确实是需要一定的成本投入 ,以及啊公司愿意长期去做这个事情啊 , 所以我觉得我们还是更把自己定为一个 research lab 的属性的情况下啊 , 这一块对于我们的投入是始终持续坚持在做的 。
嗯然后我觉得对于其他家的话 , 像 DeepMind 的 , 像 OpenAI 他们这些大玩家也一直都是在持续的想去追求 AGI 的 , 然后他们也会认为说啊多模态啊 , 包括视频的理解和视频的生成是通向 AGI 的啊一块关键的钥匙 , 那他们也会去啊追求啊这些不同的模型之间的各种不同的模型持续的研究上的迭代吧 。
然后 Runway 之前也是提出过这个视频世界模型的概念 , 然后我觉得他们可能也是有一部分的 research 会 focus 在这个方向啊 ,但在一些更偏应用层的公司啊 , 当然也还是会继续迭代他们的模型啊 ,但我觉得可能会更 focus 在视频生成本身 , 就是这个视频生成以后怎么应用 , 如何去符合啊现在的消费的场景啊 ,以及它未来可能能够创造出一些什么样的新的形态啊 。
我觉得啊这两种 , 我觉得也不算是一个特别明显的路径的选择 ,因为现在我们觉得在视频模型可能还在一个非常早期 , 甚至没有到语言模型的 GPT-3 的阶段的时候啊 , 这些路径的选择都不是特别的明晰 ,但我觉得可能在接下来几年这些差距会逐渐的啊显现出来 。
这里我其实想补充一个问题 , 你刚刚提到就是这个 , 你们公司可能相对来说比较偏 research 的定位跟方向 , 就是你方不方便透露 , 就是你们公司会怎么来看做 research 的投入 , 跟作为一个公司商业化的平衡要怎么处理呢 ?
因为其实比如说 OpenAI 它之前有很长时间被讨论的 , 就是它要平衡这个问题的这个难点 , 然后它前期的这些巨额的投入 。
另外是你觉得做视频模型或者是做视频应用的呃可能可能还是视频模型吧的这一类的公司 , 它遇到的这个平衡的问题会和 OpenAI 他们还是做文字模型吧 , 是一个类似的路径吗 ?
有没有可能就是有不一样的路 ?
我先回答你第一个问题 , 就是在这个投入 research 和商业化的这个决策上啊 , 我觉得其实我们是渐渐更站在投入 research 那边的 , 就商业化对我们来说确实是一个相对重要 ,但不是那么重要的指标啊 , 然后我们确实现在更多靠的是呃融资的钱在持续的进行啊下一代 research,但是同时也保证说我们啊这个在啊 inference 啊 , 包括在 research 上的 cost 是相对可控的啊 。
我觉得这点上我会感觉在美国的这些 VC 相对还是给予很多的啊长期主义的这种信任啊 , 就会说投入这个钱 , 然后在我们甚至到呃最新一轮的融资的时候 ,其实也没有明确的对我们的商业化的数据做出任何的要求啊 ,但更多的是想看我们怎么去实现啊在视觉领域的啊 ,不管是 AGI 还是这样一个世界模型的这个啊定义 , 这个方向是什么样的啊
。 所以我觉得啊在这点上啊 , 可能是就本来是我们也是一直是一个 research lab 的定义的方向 , 然后也是在这边硅谷的 VC 对我们的了解 , 然后啊给予我们的这样一个信任吧 。
觉得做视频模型有没有可能会跟就是做文字模型它的这个发展的策略有可能是不一样的 ?
总体上我们相信 Scaling Law 是会一样的 ,也就是我们过去两年在文字领域看到的同样的发展会在视频模型上重演 ,也就是大家不断去 scale 这个模型 , 直到 scale 到这个模型有一定的基础的通用能力之后啊 , 甚至可能会做到比现在的文字模型的这个 GPT-4 的这个 base model 会要大很多的时候啊 , 会去发展相应的推理能力啊 , 这个就更多的是对真实世界的
理解 ,以及推理模拟这个真实世界的客观规律 。 这些我觉得跟文字模型的发展啊不会有太大的差别 ,因为大家都是基于 Transformer 这条架构 , 然后 Transformer 架构的最大的核心就是不断的往上 scale 数据 , 然后期待模型涌现出来的这个新的能力啊 。
但我觉得视频模型跟语言模型相对不一样的点是啊 , 对于视频模型来说 , 它的首先这个数据的量级很大 ,但是它的 noise 也很多 ,因为一张图片甚至是一个视频里 , 它可能包含的这个信息点不是所有的东西都是有用的 ,但是很多时候你把这些啊数据喂给模型的时候 , 模型会 take 它们的全部 , 然后怎么让模型去理解这些之间的相互关系和规
律 , 这个我觉得是比啊纯语言模型去 scale up 更多的数据会更难的一件事情 ,也就是怎么让模型去理解这些数据 。
所以我觉得在啊具体的这种工程上啊 , 会是一个跟语言模型完全不太一样的这个训练模式 。
世界模型22:17
那我们的第八个问题啊 , 就是嗯网上也有很多人会提到通向 AGI 的必要路径 ,有可能并不是文本 ,而是视觉 。
那你怎么看这个问题啊 ?
嗯啊我觉得在硅谷 , 这是一个在不同的 AI research community 之间啊的一个 debate 啊 , 就大家分为语言模型的阵营和所谓世界模型和视觉模型的阵营 。
比如说啊在语言模型这一块 ,其实像 Dario Amodei 就是 Anthropic 的 CEO,他们会更坚定的相信只要继续 scale up 语言模型 , 语言模型可以通过在所有的人类的啊语言资料库里理解这个世界的相互关系 , 那我们就不必去训练一个视觉的模型 。
所以 Anthropic 也一直没有去做啊多模态的啊 ,不管是生成还是理解方面的模型啊 。 但啊另一方面就像最早是杨丽坤啊 , 就是 Meta 的呃那个首席科学家 , 然后还有啊李飞飞 ,他们更多相信说啊人类去学习这个世界规律的一开始是通过语言啊 , 通过视觉模型来实现的 , 所以就啊在视觉上的反馈是一个非常直观的过程 , 所以他们会觉得那视觉模型是必不可少的一部分
啊 。 然后我其实之前在 OpenAI 去年的 dev day 上 ,在一个 after hour 上啊 , 就意外的看到了 Sam Altman, 然后我当时就觉得哎 , 我就想看一下说 OpenAI 在这个上面的态度是什么样的啊 , 我就冲上去问了 Sam 一个问题 , 就说哎 , 我看到 Sora 好像因为当时是啊去年的 10 月份 , 然后那时候 Sora 一直没有发布 , 然后我就说哎 , 好像一直没有看到 Sora 的结果出来啊 , 你们这个还是一
个你们 focus 在的方向吗 ? 你觉得视觉视频的生成啊 ,是对 AGI 的一个必经之路吗 ? 然后他就反问了我一个问题 , 说你是怎么学习这个世界的客观规律的 ?
你会去看这个世界来学吗 ? 啊我说是呀 。 啊他说那同样的道理 , 我们不会指望说一个只会读书的一个模型能够去学到这个世界上所有的规律 , 所以我们肯定会去做视觉理解啊 。
然后当时他是这样来啊答复我的 , 然后我就感觉说 OpenAI 啊 , 虽然可能不一定在 Sora 这一个方向 , 就是视频生成的方向上投入很多 ,但啊感觉他们也会更多往视觉和多模态的这个方向上去做研究方面的投入 。
哎刚才正好聊到李飞飞哈 ,其实我们的第九个问题就是想请你给大家科普一下, 李飞飞的世界模型到底是什么呀 ?
呃我觉得呃可能不同的人的定义不一样吧 , 然后所以我我理解的呃世界模型可能源自于不包括我看到李飞飞的演讲 , 还有包括杨丽坤他之前的一些啊公开的啊演讲的信息啊 ,但我觉得这个世界模型在硅谷的理解有两块 , 一块是对这个世界的理解 , 所有世界的物理规律 , 比如说我现在如果手里举着一个杯子 , 然后这个杯子当我松手的时候落下, 这个杯子
在地上会摔成什么样的形状 , 重力的影响 , 然后地面的摩擦力的影响 , 不同材质的影响对它是什么样的啊 , 那视觉模型是否可以理解到这个世界真实会发生的物理规律 , 这是第一层 。
然后第二层是在理解了之后, 它是否可以对啊未来还未发生的事情进行一个模拟 , 比如说那我就给他一张这个 , 这个就就更多是生成方面 , 比如说我给他一张我手拿着杯子的照片 , 然后我跟他说啊 , 请你现在模拟说这个啊手松开 , 杯子掉下, 然后这个会发生什么 ,他是否能够精准的理解 。
所以我们会觉得就是对于这个世界模型来说啊 , 对这个世界客观规律 , 对物理规律 , 对所有视觉的信息的一个符合物理规律的理解和生成是一枚硬币的正反面 。
那么当你做到一个世界模型的时候 , 那么它就可以做到同时对啊我们现在的物理世界的精准理解和精准的生成和模拟 。
然后这个应用到最终 AGI 上就说 , 如果要处理任何视觉相关的 task 啊 , 比如说如果我们未来想象一个机器人, 它要用手拿起一个杯子 , 然后把它递到你面前 , 让你喝这杯水的时候 , 那么它就必须要同时具有理解和去模拟这个整个过程的这样一个能力 。
哎那你们觉得它的这个事情给整个就是你们这个领域带来了什么样子的启发或者是影响 ?
呃你说世界模型这个概念吗 ? 呃我们觉得启发和影响更多是我们会不仅局限于说只是生成这个视频 , 包括我们会觉得说所有多模态的信息都应该成为这个模型的输入和输出 , 所以我们最终的目标可能觉得要实现这一个世界模型 , 要实现这个啊视觉的 AGI 可能更多的是一个 anything to anything 的模型 ,也就是这个视频啊视频图片啊声音啊 , 包括各种啊人说话的
声音 , 包括音效啊 , 包括这个世界的一些 common knowledge 啊 know-how, 比如说我们作为人是知道说哎 , 我们怎么把呃地上一个呃碎了的东西捡起来的 , 那这些也是这个最终这个世界模型可能所需要知道的信息 , 那这些信息啊可能最终汇总到一起 , 它能够做到一个多模态的输入和多模态的输出啊 , 这是我们觉得说当我们从这个最终的这个 end goal 去想象现在需要的模型的
能力的时候 , 这是我们现在从研究侧需要去做的事情 。
我能不能理解它就是其实是把这个难度提高了很多 ?
呃是我觉得也把它所需要的 ,不管是从数据的层面上还是从研究层面上需要做的事情都提升了一个量级 , 就不仅是只是 focus 在视频的输入和输出这样的一个单一的模态上 。
对因为它把那个信息的维度提高了非常多 。
嗯是的 , 甚至它最终可能需要跟语言模型有某种形式上的结合啊 ,其实现在的那个视觉理解模型很多就其实依赖于啊一个基础的语言模型来作为它理解的这样一个浓缩信息的途径 。
那它做的这个方向上目前除了他们还有谁啊 ?
李飞飞吗 ? 呃我觉得 World Labs 其实他们采取的是一个更加往 3D 方向的拓展啊 , 所以他们选择这个路径可能只是路径中的一条啊 ,因为 Luma 之前我们是一个做 3D 重建和 3D 生成的 ,其实啊 World Labs 在啊做的一些方向上面跟我们是之前的工作是有很多相似性的嗯 ,但是我们后来之所以选择视频这个这个渠道 ,也是觉得说通过对视频的理解 , 通过海量的 scale up 数据的
方式啊 , 或许我们不一定需要一定要通过 3D 来理解这个世界的物理规律啊 , 所以啊我觉得这可能是你说对于我们跟 World Lab 啊 , 尽管我们都是向着世界模型的努力 ,但是在这个路径上可能不同的选择啊 , 然后像 DeepMind 的话 , 我觉得他们的世界模型啊可能也更多是从视频生成的领域 , 就像他们啊在去年发布的 Genie 2, 就是一个能够啊模拟就是各种游戏中进行一个 360 度的
不同视角的转换 , 然后可以看到这个游戏实时生成的这个场景 ,但那个更多也是基于视频生成的路径 ,而不是 3D 重建的路径 。
就是你提到这个 , 想到你们之前不是放弃了 3D 这条路线 ?
对也说不上放弃吧 , 就是我们觉得说呃这个路径的选择上可能会有一些啊我们觉得循序渐进的这个阶段 , 我们会觉得现在还不是去啊 scale up 或者去能够去啊大规模的做 3D 的这个时候 。
那我们的第十个问题是这样啊 , 就是上次我们和 Barkley 聊天的时候 , 你有提到一个观点啊 , 就认为现在要继续突破 , 很可能一个公司的工程与管理的能力 , 它能带来的价值是大于算法创新的价值的 , 这个你可以展开再讲一讲吗 ?
工程与创新29:53
我觉得这个更多是在呃数据上去呃就做这个工程和管理啊 , 当然因为我具体可能更多的也在这个数据和评测的方面 , 所以我对啊模型侧的一些工程的问题可能不是那么的熟悉 ,但比如说在数据上我们很多时候会发现 , 如果你有一套能够快速的去 inject 和 output 数据的方式 , 这个对模型的训练速度会有极大的提升啊 ,因为最终我们按照 Scaling Law 的理解 , 这个
模型它看过的数据越多 , 它能够理解它能够生成的事情也可能就越广啊 , 那这个时候啊这个并不是说在 research 上面能有什么架构上的突破 ,而是说我怎么能够快速的让模型去理解这些视频的数据 , 那么所有的视频可能比如说都要经过一定的压缩 ,但是我如何在压缩的同时能够保证它的信息尽可能的被保留 , 那这就是一个更多工程上的问题 ,而不是一
个啊不是一个纯研究上的问题啊 , 然后包括说这个数据的 pipeline 应该是什么样的啊 , 这个也更多是一个公司在管理上我们怎么决定去运行这样一个从数据的采集到呃去标注到最终能够切分到给模型能够使用的片段 。
这让我的感觉就是整个这个流水线好像一个工业厨房 , 就是如果说这个数据是菜的话 , 你就啊要有一个完整的流水线 , 一个人负责切菜 , 一个人负责啊洗菜 , 一个人把这个菜啊分门别类的分好 , 然后最终决定说这些菜要切成什么样的段 , 然后投入到这个锅里按什么样的比例翻炒啊 , 那整个这个其实并没有什么啊研究上的创新 ,但是它是一个
在工程和管理上能够做到更有效率 , 然后就会对这个模型的能力有很大提升的这样一些呃 effort。
哎那我们的第十一个问题哈 , 还是要聊一聊算法上的突破 , 就关于算法上的突破 ,有看到最近有哪些公司在做新的有意义的尝试吗 ?
我感觉这个问题可能我回答不不是特别的专业 ,因为我更多是从一个 PM 的视角来看啊 , 对就比如说呃对于 Sora 去年的呃发布 , 大家都会知道说证明了说 DIT 在大规模的数据的 scale up 上面是可行的 , 那么可能在 DIT 的基础上, 大家又会对 DIT 这个架构本身有一些不同程度的修改 , 然后这些可能最终啊会在啊不同的公司的模型上有一些体现啊 , 除此以外我觉
得就是有一些功能点 , 比如说如何做一些视频的编辑啊 , 甚至是图片的编辑在这方面啊有一些新的啊在原有的算法的基础上可能演化出来的一些啊新的方法 ,也是在啊就是我感觉这个模式是啊在 research 在学界可能提出了一些有意思的猜测 , 然后作为呃我们有能力去训练一个更大的模型的啊公司 startup 会去 scale up 数据 , 然后去看说这个在一个更大的场景下能否能
够得到广泛的应用啊 , 然后最终决定说哎这个事情是否呃是一个有意义的尝试啊 , 我觉得更多可能偏向于这类的把一些啊新颖的想法 , 一些小的创新点通过数据 scale up, 然后最终应用到产品里面的一些啊 effort。
哎你刚才说到这个工程和管理能力的贡献的重要性 , 刚才想到觉得这个挑战在于其实还是在于以前这个事没有人做过嘛 。
嗯是的 。
他没有参考样本 , 那你们有没有什么就是从你自己个人感受特别强烈的什么比较有价值的 take away 可以给其他同行问的 , 或者说就你了解你们公司 , 或者是就你了解的其他的公司在做这种一个一个没有参考范本的一件事 , 就是公司会创造一个什么样子的氛围 , 或者是说比较鼓励什么样子的氛围来推动它更有效率 。
我觉得这个可能更多是在就是在这样一些问题上大胆去尝试 , 就其实有点像就是很直白的道理 , 就是大力出奇迹 , 就是我们不管怎么样 , 反正没有一个标准答案 ,但我们就先去试啊 , 就包括比如说在评测上没有一套统一的评测标准 , 那我们可能包括对于这个第三方的评测人员来说 ,他们也没经过这样的训练 ,他们不知道说应该怎么样去 evaluate, 比如说对于
一个视频它美感是什么样的 , 那我们就制定不同的一些啊样例和这个标准说哎 , 那如果它包含了这些的话 , 那可能我们会认为说它啊更有美感一些 , 或者在美感上面会更低一些 , 然后我们去看说这最终是否 align 我们的 expectation, 我们会先就大规模去尝试各种不同的标准给到这些标注人员 , 然后看看哪些最终是更符合我们啊自己看下来的这个啊预期
, 包括 community 对它的预期的 , 嗯然后啊包括这些评测我们会啊就在之后会有很多的这种去 cross reference 的这些方式 ,但这些很多也都是一开始我们去跟 creator community 交流的时候 , 然后他们说哎 , 那我们评测出来以后, 我们看这些 sample 的感觉是什么样的 , 然后我们会啊根据他们的这些 feedback 又不断的去调整我们这样的标准啊 ,但我觉得很多就是一个啊大胆去试 , 然后 trial
and error 的过程 。
听起来就是一个要造一个火车 , 现在连火车站都没有 , 要从火车站开始开始造的感觉 。
就就画一匹马 , 然后不管你画出来的是什么样 , 它只要能跑就可以 , 所以它是否是一个最科学的身体的构造 , 这个可能对我们这个阶段来说不重要 。
那你觉得类比一下其他的 peers 们在也是在做类似的事吗 ? 也需要做类似的事 , 对吗 ?
我感觉大家都在摸着石头过河 ,以及我觉得就是 in general 这也是一个对于一个新的领域 , 对于创业公司来说的一个特点 , 就是啊甚至可能反馈到我们的招人的标准上面 , 我们招人的标准一向就是这个是一个从来没解决过的问题 , 你要怎么去做 , 我们会啊像我们 CEO 会经常问 candidate 这样一个问题 。
那这个优秀的答案应该是什么 ?
哈哈哈那就看具体这个事情是什么样的了 , 然后就看大家的思路可能会是什么样 。
哎我们前面聊了蛮多这个行业啊 , 然后各种技术突破 , 那我们接下来聊一聊产品吧 , 然后争取聊一点八卦 , 轻松一点 。
好 , 然后我们第 12 个问题是想问一下 Barkley,因为你也是产品经理 , 你应该也很关注各种各样的应用 , 所以在过去的这几个月吧 , 你有看到哪一个或者哪几个让你觉得就是眼前一亮 , 印象深刻的 AI 领域的视频应用 ?
用例与预测36:47
AI 领域的视频应用啊 , 我想想 , 我觉得不一定是一个具体的应用或者产品啊 ,但我可能说一些我看到的比较 impressive 的 use case 吧 , 一个是啊我们当时就是去年刚发布那个 Luma 第一代的视频模型的时候 , 突然会看到一个 trend 是啊大家会看啊如果我上传两个人的照片 , 想尝试让这两个人拥抱啊会发生什么样的结果啊 , 然后这个 trend 最开始只是一些就是把两个人的
照片同时上传的啊这样一个 use case,但是到后面演化为啊把自己过世的亲人的照片跟自己上传 , 比如说一个爷爷跟一个孙女的照片 , 然后啊他们会左右排列 , 然后在图像视频上给他们一个 prompt 说啊 let them hug, 然后就会出现啊一个老照片跟一个现代的照片 , 然后两个完美的融合 , 然后抱在一起的这个场景啊 , 然后这个是我当时觉得哎很很让我感动 , 很人
性化的一个这样的啊应用吧 , 就是感觉能够重新跟啊逝去的亲人产生这样的连接 。 不最有爱的就是呃一些比较有意思的视频应用 , 包括去年有一些 trend 是啊会看到不同的东西的 transformation, 去年有一个 trend 的年底的时候啊叫 Apple dog, 就是一个狗叼着一个苹果 , 会看到这个这个苹果啊这个狗叼着苹果突然一下消失了 , 然后之后会出现各种各样有意思的啊他们变
身以后的这样的场景啊 , 我觉得这个也挺好玩的 。
那我们的第 13 个问题啊 , 就是我们来预测一下吧 ,2025 年视频模型应该还会不断的革新 , 那你认为这些革新这些突破有可能会解锁哪些新的创业机会 , 或者做应用的新的场景呢 ?
呃我觉得有一些 , 比如我们觉得在 2025 年啊视频模型会能够做到对角色和至少人物的一致性很好的保持 , 那啊这个就比如说如果我们之前要想生成一个连续的故事的话 , 我可能要花很大的精力让模型去学会啊这个 , 或者我不掉 , 我我要不断的通过抽卡让这个模型能够稳定的生成一些啊同一个角色相关的这个啊视频的场景 , 那么啊在呃我目前看到的
research 的一些突破上, 我觉得这个啊 character consistency 的问题在 2025 年能够得到极大的提升 , 那么这时候你就可以用它真正去很简单的拍一些能够有连续上下剧情的影视啊 , 或者是一些比如说把啊像这种啊文字的一些小说的场景进行改编 , 比如说很多二创 , 它有可能可以成为一个新的一个视频的啊模式 , 然后在网络上传播啊 , 然后啊另一个我自己比较感兴趣的方向是实时
的这个视频的生成啊 , 就啊当然这个不一定能够在 25 年能够完全的实现 ,但就是如果我们能够把视频生成的延迟降到很低的话 , 那么有可能就说我能够在看一个内容的同时能够实时的对这个视频进行修改啊 , 比如说我不喜欢啊哈利波特的某一个结局 , 我觉得说哎我想看到它不一样的一个可能的发生的场景 , 那么我在看哈利波特的时候 ,
可能我就跟这个视频模型对话说那我希望看到这个结局是什么样的 , 或者在这个场景里我希望看到的一个啊发生的一个另一种可能是什么 , 然后这个模型它能够立即做出反应 , 然后去生成一个可能的不同的结局啊 , 像这种实时视频的生成能够带来的应用的场景 , 我觉得我会更期待说它能够成为一种新的内容消费的形式啊 , 就在之后可能啊生产
者和消费者的这个边界会变得模糊 , 那所有人都可以做这个视频的 edit, 然后所有的这些视频的内容也都是啊 customize 啊 towards 他们的啊 , 这些是我觉得可以诞生一些新的应用场景和啊甚至是新的一个这种 entertainment 的这个机会的可能 , 嗯但就啊毕竟很多依赖于 research 的进展 , 所以也不知道会不会在 2025 年实现 。
那有没有就是那种短期内你觉得肯定会实现的 , 会马上发生的 ?
呃我觉得 character consistency 是短期内应该马上会实现的 ,因为可以看到啊包括我们在内很多的 AI 公司都已经在这一块取得了在模型层取得了一些啊很好的效果 。
硅谷八卦41:19
然后我们说到八卦哈 , 就知道这个每家公司这个最喜欢聊八卦的时候就是大家一起吃午饭的时候 。
嗯那我比较好奇你们最近吃午饭的时候和同事们都在聊哪些事啊 , 聊到了哪些业内的新闻动态 , 你觉得印象深刻 ,也可以拿来和大家聊一聊分享一下的 。
哦我们其实会聊一些啊其他公司内的八卦 , 包括我们不断的在啊就是全球招招募这样的 AI 的人才嘛 , 然后有时候也会看到就是哎他们在过去的一些公司的体验啊 , 然后就啊我我们有时候会八卦作为一个创业公司会八卦这些大厂他们的管理和这个 AI 的研究到底是什么样的啊 ,因为我们会觉得很多大厂的研究是一个非常纠结的状态啊 ,因为啊受到这样的不同
层级的管理的这种啊不一定是 research 做最终的决策的这样的一个体系下 ,但是 researcher 又需要保持他们一定的自主独立性啊 , 然后就会发现有时候有了一些大厂内部可能会出现的啊政治斗争 , 然后我们会把这个当八卦在餐桌上面聊啊 , 然后包括我们会觉得说哎为什么呃就是在这些大厂可能啊很多 researcher 不一定觉得他们能够做出更好最最好的成绩啊 , 这也是我
们有很多从啊比如说啊 Google DeepMind 过来的 researcher, 从 Meta 过来的 researcher 啊 ,他们会给到我们的一些反馈 , 就是啊在很多时候当一个不是 researcher 的管理者去啊权衡说我应该去做前沿的 AI research, 还是我应该保持我的这个组能够有持续的产出的时候啊 ,其实大部分的管理者都可能会选择后者 ,因为后者是一个更稳妥的方式啊 ,但啊这个 incentive structure 就是设计 , 就就本本质是因为啊 AI research 这个
事的不确定性太高了 ,但是在大厂的这种评价体系下, 如果做不出成绩 , 那很有可能就代表就是没有这个升职的空间 ,也没有这个组能够存活下来的机会啊 , 所以我觉得有时候这些问题还会啊阻碍了创新 , 我们最近在就是午餐的时候经常会聊到这个问题 , 所以觉得还挺有意思 。
哎那你们公司对 DeepSeek 有什么讨论吗 ? 然后你作为一个中国人, 然后应该也有可能是你们其他的非中国人同事的一个询问的对象 。
嗯对我我记得 DeepSeek 出来之后, 我那个啊 CEO 会问一个问题 , 就说哎就是中国的这个啊创新和经济的环境到底是怎么样的 ,因为他会听到很矛盾的信息 , 一方面觉得说哎中国好像大部分公司又不在搞大模型的基础研究 , 然后都会 focus 在应用层 ,但另一方面又有 DeepSeek 这样厉害的公司出来 , 对吧然后啊我觉得作为一个在这边 PM, 我其实但因为还是会跟国内有很多的交流
嘛 , 所以啊我会感觉 DeepSeek 出来以后其实啊对啊整个硅谷这边是有一点 shock 的这个感觉 , 就是对一个中国公司能够在啊一个纯啊底层的这个啊模型的技术上能够取得这样一个突破 , 然后能够有一些很好的效果 , 包括在最终的这个应用层上增长的速度也是特别快的嘛 , 嗯然后我觉得这是可能过去没有一个中国公司能够在全球市场达到的 ,但啊所以对于我们来
说也会更加 focus on 对于呃中国的人才的招募啊 , 像 DeepSeek 这样的公司很多都是中国本土的人才嘛 , 然后我们觉得说哎可能啊对于这些人才我们也会想说如何吸引他们来啊我们啊跟我们就是更多的去创造新的这些 AGI 的这些可能性 , 然后另一方面就就我感知到的在中国的氛围可能就是更多对中国一个啊 AI 领域的一个这样的一个强心剂吧 , 就说啊如果你相信坚坚
持相信这个长期主义 , 就最终如果你足够相信你这个愿景的话 , 最终是会实现的 , 然后啊我其实觉得我们在硅谷这边还是能感觉到很多这样的氛围的 , 然后我觉得可能对于我们来说也是这样一个 reaffirmation 吧 , 就是继续去追求视频领域的 AGI, 继续去 scale up 这个模型 , 继续去做这个基础的研究 。
那我们下一个问题 ,其实你刚说到这个 , 像你说到你们是把追求 AGI 作为公司的目标嘛 , 然后 Ronghui 的 CEO 其实之前还有一篇比较有名的一个是文章还是他的一个讲话 ,他说不再用 AI 公司来看自己 。
嗯我觉得他整篇其实在强调的就是要技技术要要找到好的应用 。 嗯就是觉得你们应该是两个不同的发展方向 , 然后之前我们聊天的时候也聊到说两个 CEO 在 Twitter 上交锋过 。
嗯是的对 , 就是啊那个是 Chris Tobo, 就是 Ronghui 的 CEO,他在啊 Twitter 上挂在自己的 pinned 到首页的一段话啊 , 就很长的一段 ,但大概的意思就是说啊 Ronghui 不是一个 AI 公司 ,Ronghui 是一个啊 media and entertainment 公司 , 然后他又说啊现在谁还标搒自己是 AI 公司的 , 那这个时代已经终结了 , 你们快点醒一醒 ,AI 之后会变成一个基础的像啊水电一样的东西 , 那么你今天叫自己叫 AI 公司 , 实际上是你就是是
没有意义的 ,因为它最终会变成一个所有人都用 ,但是啊所以确实要去想这个应用场景是什么 , 然后啊他发了这篇以后, 我们 CEO 就在 Twitter 上面转发了 quote 了一句说啊任何就是误打误撞进入 AI,但是又不不真正懂 AI 的人才会这么说啊 , 然后配了一个我们啊 Ray2 生成的一个啊一个啊一个青蛙 , 就是吐舌头的照片啊一个视频 ,但其实我觉得两个都没有严格意义上的对错
, 就其实它都是硬币的一两正反面 , 当然也可能是一个就是时间上的问题 , 就啊从我们 CEO 的角度 , 包括我们公司更多相信的是啊 AI 在目前这个阶段不会成为像水电这样的基础的东西 , 就是 AI 本身的前沿的研究会带来新的范式 , 会带来新的应用场景和突破啊 , 这也是我们持续在行业内观察到说啊任何一个模型的提升啊其实都可以带来应用场景上
很大的拓宽 , 所以啊我们还是会更加坚信说啊继续 focus 在底层模型的研究 , 然后这些应用场景啊会自然的来啊 ,但也并不是说我们不去 focus 在应用场景 ,不去听我们这个用户真正想要什么 ,但我觉得相对来讲 , 我觉得可能啊 Ronghui 会更多的啊关注在啊这个 media entertainment 的行业 , 特别是他们跟很多的电影的 studio 合作啊 , 估计他们会很多想去啊听这些 studio 的 feedback, 看
他们想要什么样的啊应用场景 , 然后去做什么样的模型的提升啊 , 我觉得可能也是一个路径的选择吧 , 嗯就也不一定在目前这个阶段能看出这个绝对的对错 。
就都是不同公司的策略跟选择的不一样 , 所以会有观点嗯想法上的不一样 。
嗯对我觉得很感触的点就是啊我们就是 Skeck 经常说的一句话就是 "Everything in the Bay Area happens on Twitter." 就所有的这些公司的 CEO 会直接在 Twitter 上面对骂啊 , 然后非常有个性 , 然后我觉得也是我在硅谷这边吃瓜觉得很有意思的一个点 。
PM变革48:58
哎其实之前十字路口有一期非常受欢迎的内容哈 , 就是 AI 时代的产品经理指南 。 嗯然后我们在那一期里面聊了啊好多问题 , 比如说嗯产品经理要怎么重新定义自己 , 产品经理要如何又去学习新的技能 , 才能在一个 AI 产品里面发挥出足够大的价值 。
那所以从你自己的这个呃切身的经历来看啊 ,也是我们的第 16 个问题 , 就你认为 PM 这个岗位在 AI 公司有哪些变化 , 你又是怎么从之前在 TikTok 做 AI 的特效的产品经理 , 然后转到在 Luma AI 做一个模型的这个产品经理 , 这个中间的一些故事 , 一些心得可不可以分享一下 。
呃我觉得就是我这两年有一个很大的心态的变化 , 从一个啊在啊我觉得也是可能跟作为一个模型层的啊 startup versus 像字节这样一个比较产品驱动的大厂啊的不同的就是 position 的体会 , 我在字节的时候感觉作为产品经理是很有主导权的 , 就是我基本上会去定义这个特效会怎么去做 , 然后啊我甚至会啊直接可能参与到 research 的这个讨论中, 然后去说哎给 research 提需
求说我们需要这个东西 , 嗯然后呃这个 research 会告诉我说嗯这个东西能不能实现 , 然后我们啊按照一个预期的时间线把这个特效推上线啊 , 尽管它可能是一个跟 AI 相关的需要有一定不确定性的研究周期的这个事情 。
嗯但是我在 Luma 做啊模型层的 PM 的时候 , 就会发现其实啊作为一个 research lab, 我们更多是以 researcher 为主导的 ,也就是他们啊确定这个 research 的主要的方向 ,而我更多的去打辅助 。
嗯所以就我觉得最开始会有一个这种心态上的落差 , 就是哎我不我不是那个能够去 command 一切 , 能够去啊主导的这样一个 position,但是啊我逐渐会意识到说这可能是一个啊对于 research 来说更健康的模式 ,因为啊 research 本身就是有很大的不确定性的 。
我觉得啊现在在这个 AI 的时代跟互联网时代不一样的点是在过去啊产品经理可以定义一个需求啊 , 甚至一个 feature 明确的啊目标受众和数据是什么样的 ,因为这个 feature 是肯定可以被做出来的啊 , 就 engineer 可以做到这个事情 ,但是啊在现在是所有的都出一个混沌的状态 , 然后 research 啊十个想法里面可能九个会 fail,但最终会有一个成功 , 那这种情况下啊产品经理更多是说
啊如何帮助啊 researcher 更好了解说哎我们怎么去定义最开始要试的十个想法 , 嗯但是不会去明确的啊要求说哎我们最终这些想法都要能够做成 , 然后都能作为 feature 在产品上上线 ,因为那样是非常不切实际的 。
所以在啊负责这个数据和模型评测的时候啊 , 我其实是在充当一个连接 researcher 和啊这个终端的消费者 ,以及我们的 creator 群体的这样一个角色 , 就是我模型评测出来的结果最终会反馈给 researcher, 然后说哎那我们在模型在这些方面可能有不足 , 那我们如何通过啊数据的采集 , 数据的标注啊这上面去补齐模型在这一块的能力啊 ,但是具体去怎么啊做这个事情
,以及要往哪个方面做啊 ,其实最终是他们来拍板决定的 ,因为我觉得我确实没有这个能力能够去啊主导去定义说啊这些啊就是模模型的迭代应该应该往哪个方向去迭代 ,但我会尽可能的给他们提供啊来自用户的一手的信息 , 来帮助他们做更好的这个决策 。
想补充的问题是第一个是因为 Barkley 比较年轻嘛 , 那你有观察比如说啊 senior 就是 level 高一些的 PM 他们的工作是什么 ?
第二个是啊就是你刚才提到你所做的事情的这些特性 ,有没有会因为就是你所在的公司它的 research 的这个重要性非常的高 , 所以它会有一点特殊性 ?
你有没有跟其他的就是其他公司的 PM 交流 ,他们做的事情的就是比如说更偏向哪个方向 ?
嗯啊对对于第一个问题 , 我觉得是啊我们公司只有我一个 PM, 所以我的感觉是即使对于更 senior 的 PM 来说 , 所有的这些就因为毕竟整个 AI 的就是落地到产品上的发展 ,也就是从啊 ChatGPT 开始的事情 , 那么这个行业可能整整到现在啊不过两年半的时间啊 , 然后那所有的就是 PM 都要重新开始去 adapt 这个系统 , 然后去了解说怎么啊去在此之上 either build 应用场景 , 或者
去啊帮助模型做更好的迭代 , 做啊更深入的研究 , 然后啊我觉得对于第二个问题 , 我其实啊更多跟模型层的啊 PM 会有交流 , 然后确实感觉比如说在 Sora 在 Veo 啊我们的同行跟我的同行跟我做的是很类似的工作啊 , 都会啊比如说 focus 在 data 啊 eval 这些啊对模型很核心的 task,但是又是需要对用户的 insight 和理解啊的这样的一个啊 position 啊 ,但我觉得模型层公司跟应
用层公司的 PM 还是会有很大的差别 。 嗯就比如说我了解到其他的一些应用层的公司啊 , 比如说啊就对于字节即梦的 PM 来说 ,他们可能更多的是去探索哎这个模型能够怎么我我不管用哪家的模型 , 我怎么能够找到最好的应用场景 , 怎么能够啊把这个啊模型的能力通过 feature 的形式 , 通过交互的形式被大家更简单的去接受啊 , 那么啊其他的应用层
的公司可能就根据他们不同的场景去寻找啊这些啊呃具体模型能够最好的应用场景 , 最好的呃交互和应用方式是什么 , 所以我觉得模型层的 PM 跟应用层的 PM 可能还是存在很大的差别 。
在你们公司或者是你观察到其他的公司在招 PM 的时候的要求 ,有哪些特别的地方 , 或者说跟以前相比有什么不一样的地方 ?
呃我觉得可能还是只能基于我们现在比如说在招的啊 PM 的岗位 , 或者作为一个模型层的公司的要求来说啊 , 我们其实更希望这个 PM 是啊有过啊在模型层的做 either 数据或者是做评测的这样的相关的经验的啊 , 然后这个可能在目前来说还是一个啊比较小的一个群体啊 , 然后啊即使没有的话 , 我们会希望他能够快速上手 , 能够去 figure out 一个之前从来没有啊
被定义成标准的事情啊 , 就啊我觉得呃特别是呃在 startup,因为没有人能够 mentor 你 , 然后大家大家都 expect 说你要能够 fill 这个职位 , 能够一上来就能做事情 , 所以我觉得能够快速的啊找到这个啊比如说在没有一个客观标准的时候 , 建立一个评测的标准 , 这个可能是我们在招 PM 方面啊跟过去比如说啊可能招有经验的 PM 不太一样的 , 就是我们不太 care 过去具
体的经验 , 除非是特别相关的 ,但是特别 care 的是啊能否快速的上手去完成一件事情 。
我们之前跟李乐丁老师聊 ,他说就是这个 PM 其实在现在这个时代是前所未有的重要 , 然后另外是我自己其实对硅谷的 PM 的很多信息 ,其实是因为看那个 Lenny 的 Lenny's newsletter, 然后他因为自己以前就是一个 PM, 所以他会非常专注从这个角度去聊了很多东西 。
我其实比较好奇就是以前会有这么多非常强调 PM 的 ,不管是社区还是内容 。
我觉得其实在硅谷反而没有像国内那样啊那么强调 PM 啊 ,以及就是 PM 的社区啊 , 就其实呃我觉得整个 PM 是更多偏移动互联网出现之后的东西 ,但是移动互联网其实在中国是发展的比美国更加的啊怎么说蓬勃生长的这个状态 , 对啊 , 所以在美国啊其实很多公司还是偏 engineer driven 的 , 然后到现在会变成更加 research driven 的啊 , 相对较少会出现啊完全是 PM
driven 的这种啊公司啊 , 我觉得比如说啊像字节啊 , 像其实 TikTok 的管理方式 , 我觉得在美国其实在硅谷都算比较啊一个相对一类的公司了 ,但是就是 PM 的重要性我觉得导致就也很难定义说 PM 到底是一个什么样的职位 , 特别是在现在 AI 的变化就是这么快的情况下啊 ,但我我觉得可能还是那一点 , 就是啊我们觉得最好的 PM 应该他是能够快速的发现这个事情
的本质 , 然后啊找到如何去解决一个问题的方法 , 那这样的人不管你是做 PM 还是做 operations 还是做啊 sales 啊 , 或者就是这些 role,他都可能有一个啊就是很好的发展 。
学习之道58:09
第 18 个问题是 Barkley, 那你自己在一个这个非常快速发展的行业里面 , 就是你有做哪些事情来让自己保持学习 , 然后更了解这个行业的新的动态 ?
嗯啊我其实更多时候会去跟我们的 researcher 聊 , 然后啊我们的 researcher 有时候会给我推荐一些啊他们觉得有意思的 paper, 然后我可能会呃去读 , 然后包括在这个行业里其实啊另一个就是多去试各种各样的产品啊 , 我比如说作为模型评测 , 我肯定会高频的去使用其他的啊视频模型啊的这个产品 , 包括我们自己的产品啊 , 然后除此之外我觉得啊比如说在 agent 方面 ,在
啊 LM 的这样一些啊产品 , 我也会啊看到有一些新的我会尝试去使用 , 嗯比如说我最近可能就啊比较多的在尝试用 Windsurf 去写一些觉得自己啊可能会比较感兴趣 , 能够对自己使用的小程序 , 能够帮助我啊就是工作能够啊更有效率一些啊 , 我觉得能够去体验这些产品 ,在体验产品的同时去理解它背后的啊支撑它的模型 , 然后啊这个模型的原理是什么样的
, 它的边界可能在哪里啊 , 我觉得这个可能是对啊我对我作为一个模型层的 PM 很有用的啊两个学习的方式 。
第 19 个问题是你有观察你周围的人 ,他们有做哪些这样子的学习是有效的 ? 就比如说你刚刚提到就是大家的角色 ,其实有一点就是感觉像比较混杂的一个这个状态里 ,其实我我还挺同意的 , 就是感觉有一种你被你在这个时代你被逼着什么都要学 , 你身边是不是比如说你的同事或者是你的啊朋友们 ,他们其实也是一个类似的状态 , 然后大
家有哪些像你刚刚提到这个经常跟 research 聊天去读一读他们推荐的 paper,其实我觉得这是找到一个很有价值的信息源 , 然后通过他们的推荐去获得一些高价值信息的一个学习的方法嘛 , 那你有看到比如说其他人有什么样比较有效的有价值的方法吗 ?
啊我最近啊有一个也是之前跟我一起在 TikTok 的 PM 的朋友 , 然后我觉得他去梳理这些 AI 的啊包括论文啊包括应用的信息的方式非常的好 , 就是啊他会用 TLDraw, 就是一个啊线上画图的这样一个软件 , 把所有他体验过的产品和啊看过的这些 paper, 然后尝试去寻找他们之间的关联 , 然后构建这样一个整个比较大的这个思维的 map 啊 ,因为我觉得很多时候啊这也
是我之前跟啊我们公司的一些 researcher 聊天的感受 , 就是他们做 research 的过程其实就是在不同的方法 , 不同的啊这个模型之间去寻找他们之间的关联性 , 就啊我比如说我们的 researcher 有时候会去看语言模型的 paper, 然后会觉得说哎语言模型里这个方式会对我们有一些这样的启发 , 嗯然后他就会尝试运用到视频模型里看啊这个具体这个是不是 work 的 , 然后啊所
以我我觉得我对我那位朋友的方式也觉得啊特别佩服的感觉是啊就是能够在这些啊 paper 和产品之间建立这样一些连接 , 去找到啊可能在不同的领域里相似的一些不变的主题 , 然后这些最终会启发说哎我们这里可以有什么新的产品的产生 , 或者有可能有什么新的应用的场景啊 , 我觉得这是一个啊我看到觉得还比较好的方式 。
触类旁通 。
嗯对就是我会我会觉得 AI 的出现就是让我特别是 transformer 这个架构 , 会让我有一个感觉就是世界上所有的东西都是其实存在一些关联性的 , 然后只是因为我们用人类的大脑去排列组合去 process 这个事情啊太低效了 ,但是如果有 AI 的话 , 那它能够发现这些所有事物之间关联性 , 它就可以涌现出一个啊更强大的智能 。
中国机会1:02:03
我们第 20 个问题啊就是 Barkley 在硅谷做产品经理嘛 , 那我们比较想听听你分享的就是作为在硅谷的中国人, 你觉得 AI 时代有带来不一样的或者说更好的啊也可能是更差的 ,有什么不一样的新的职业机会吗 ?
你会有什么建议 , 就是大家要怎么去抓住这样的机会 ?
呃我觉得首先大家在可能啊在包括对于在中国的这个团队 , 还有在美国的这个这些啊中国创始人团队啊 ,其实很多都有一些独特的优势 , 比如说啊我们对啊中美两个啊国家的这个理解 , 包括对这个科技的市场的理解 , 就比如说啊其实在 consumer 端 , 我觉得美国很少有特别理解消费者心理的这些产品产品经理 ,因为过去可能上一个啊真正在美国火的这个 C 端
的产品可能是 Snapchat, 然后再之后就是 TikTok,但是 TikTok 是一个就是源自于就是中国的团队诞生出来的产品啊 , 然后啊其实就比如说在消费端的一些理解 , 包括啊在对于 AI 硬件的一些理解啊 , 作为中国的创业者啊 , 特别是在这个领域方面的人才都是有很多独特的优势的 , 嗯所以我觉得啊包括很多出海的国内出海的产品在美国也取得很多的成功啊 , 我觉得这也是啊因为
我们在啊中美两边的市场的理解 , 对这个 C 端的一些生态的把握 , 所以我觉得这块会有很多的啊机会 , 我觉得未来应用层会可能诞生出更多中国创始人的团队 , 然后另一方面我觉得模型层其实中国的啊研究能力还是很强的 , 就是这种去钻研去吃苦耐劳的品质吧 , 我觉得是啊什么中华民族的传统美德 , 然后会让我感觉啊在啊硅谷这边也
会看到很多优秀的 AI 公司的啊核心的 researcher 其实也都是华人, 然后啊可能只是大家就是不同的求学的背景 ,在中国读的 PhD versus 在美国读的 PhD 啊 ,但就是这些对于中国人的机会会一直有吧 , 就不会啊就肯定会随着地缘的政治会有一定的影响啊 ,但我觉得啊我我我还是更相信最终这个啊对 AI 的发展应该是一个全球更多流通 , 更多啊就是在一个啊介于合作和竞争之间
的状态下啊彼此去 improve 的 , 就像我们也会就是从中国的这些模型 , 包括他们的产品上面啊有时候会学到很多 , 然后会去啊想象就是我们会可以做出什么样的改进 。
对然后我最后也想插播一个小广告 , 就是啊我们 Luma AI 现在也在招募全球的视觉的人才 , 然后加入我们一起去啊去做视觉的理解和视觉的生成啊 , 然后去尝试通过视觉这个领域来啊实现世界模型和 AGI 的这样一个 vision, 所以啊我们也特别希望能够招募更多的中国的人才啊 , 可以啊一开始以 remote 的方式啊 , 然后我们也可以帮忙协助解决美国的工作签证 , 然后
可以加入线下加入我们的湾区的 office, 所以就如果有感兴趣的话啊可以来联系我啊 , 或者是来我们的招聘的官网上面去投递简历 。
好的谢谢 Barkley, 如果想联系 Barkley 的朋友 , 可以到我们播客的评论区 , 我们会在发布之后请 Barkley 来留一个联系方式 。
好那我们今天就先聊到这里了 , 谢谢啊希望有机会再来十字路口 。
好的谢谢你们 。
嗯拜拜 。
拜拜 。
如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 。 最后欢迎你加入十字路口的会员群 , 我们鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。






