哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人

开场0:00

Koji 杨远骋0:00

嗨，我是 Koji。那过去半年呢，" 世界模型 " 是在 AI 和具身智能这两个领域都最热门的关键词之一。但是问题是啊，当今天我们说到世界模型的时候，我们到底在说什么？

它的定义到底是什么？它听起来很宏大，但是呢又好像很不准确。它到底是一个严肃的技术对象，还是一个被混用的一个热词？

所以今天呢，我们请到了 Aether AI 的创始人黄碧薇教授，来和大家分享她对世界模型的理解，以及在她深耕的 " 因果世界模型 " 的这个新范式，她的一些观察和思考。

你好，黄教授，欢迎来到《十字路口》。

黄碧薇0:41

嗨，Koji 您好。

快问快答0:42

Koji 杨远骋0:42

我们的节目有一个传统，就是我们还是先从快问快答开始。那请问黄教授，求学的经历可以介绍一下吗？

黄碧薇0:49

我一路还蛮有意思的。我是从上海华师大计算机系毕业，然后去德国马克思普朗克研究所，从马库索到 CMU 读博，毕业以后又加入 UCSD 做助理教授。

Koji 杨远骋1:00

那请问你的 MBTI 和星座？

黄碧薇1:02

我应该是 INTJ，有的时候也会 INTP。然后星座是水瓶座。

Koji 杨远骋1:09

那一句话介绍一下 Aether AI 这个公司？

黄碧薇1:12

我们要构建这个真正的因果世界模型，让 AI 真正可以理解我们这个物理世界背后的因果关系、基础的物理规律，从而它可以举一反三，真正在物理世界当中可以帮到大家。

然后我们的第一个落地的场景就是具身大脑。

Koji 杨远骋1:29

嗯，听起来是非常 " 星辰大海 " 的一个创业。那咱们目前的融资情况是什么？

黄碧薇1:35

我们得到了很多顶级美元基金的大力支持，刚刚短期内融了 2000 万美金左右。

Koji 杨远骋1:43

哇，恭喜恭喜。那在一句话介绍一下创业之前在做什么？

黄碧薇1:47

因果发现和因果 AI 领域。我做了 12 年，从马库索读研，然后在 CMU 读博，然后再到 UCSD 做助理教授。

这一路都是我主攻的科研方向。怎么超越现在的 " 基于相关性的 AI"，真正找到背后的因果关系。

Koji 杨远骋2:06

我们待会会展开来聊一聊这个因果模型，但我们还是先从世界模型开始。那今天说到世界模型的时候，可不可以先请黄教授给我们做一个科普？

世界模型路线2:06

黄碧薇2:16

世界模型这个词啊，今年以来我感觉可能是被大家提到最多的词。然后它的定义呢，又非常 ...... 就是不统一。

我们现在其实视频生成模型、3D 生成模型，然后包括 JEPA 等等这些模型，大家现在都统一称为 " 世界模型 "。

但大家如果看具体的实践的话，你会发现它们侧重点是不一样的。有些世界模型它侧重于渲染，有些世界模型它侧重于模型本身对这个动力学系统的理解。

有些模型呢，侧重于视频生成的效果。我这边定义是：世界模型它需要去理解背后的物理规律、因果关系，或者换句话说，它可以模拟我们这个世界是怎么运行的。

基于时间或基于不同动作，它是怎么从当下状态变到下一个状态的。

Koji 杨远骋3:08

当我们今天说到世界模型的时候，你觉得有哪几条最主流的路线呢？

黄碧薇3:13

一是就是我们大家熟知的视频生成模型；第二，3D 生成模型；第三就是 JEPA 路线，杨乐坤教授主导的这条路线。

它的核心是想要去真正学习到我底层的规律，但是把我整个 decoder、到像素空间那个 decoder 完整地去掉。

它可以在影空间只保留这种平滑、smooth transition 的这种信息。

Koji 杨远骋3:40

在这些路线里面，你自己最看好哪一条呀？

黄碧薇3:44

最终的那个落地的世界模型，它必须要是懂我们这个物理世界底层规律、因果结构，懂这个 transition dynamics、物理动力学到底是怎么样子的。

但是对于现在的世界模型的话，就还没有真正地做到这一点。

Koji 杨远骋3:58

所以就是刚才三条路线，你觉得谁最有可能能够提前达到那样的一个世界模型的愿景和状态？

黄碧薇4:06

可能就是我们的因果世界模型。对。

Koji 杨远骋4:10

所以不是那三条路线，是你们现在在做的第四条路线？

黄碧薇4:14

对，但是就是 ...... 当然我们肯定也是都是站在各种巨人肩膀上嘛，包括我们早期的因果领域小模型的探索，然后以及在基于相关性的大模型的探索，以视频生成模型。

因果世界模型4:14

黄碧薇4:28

我们把这些不同的方法从各个层面结合起来，然后达到我们真正想要实现这个以因果为核心的这样的世界模型。

Koji 杨远骋4:38

所以当我们说到这个咱们在做的因果世界模型的时候，它和其他刚才我们说的三条世界模型 ——3D 生成、视频生成、以及这个杨乐坤教授的 JEPA 路线 —— 它最核心的差异化是什么呀？

黄碧薇4:52

最核心的差异化就是：我们的世界模型真正能在影空间里面，第一点，能够学到因果变量、因果特征。

比如说，我举个例子，比如说我这个物体的形状，有几个物体，是吧，速度、角速度，然后摩擦力等等。

这是第一点。第二点就是，我要同时学习这些因果变量之间的因果结构，它们相互之间怎么影响。

比如说我想抓这个杯子，我抓杯子的时候，手的握力点、速度、角度，都会影响我是不是能成功抓取这个杯子。

然后第三点，在模型当中自己能学习我这个 transition dynamics 是怎么样的，我在用不同动作，那下一时刻它达到什么样的状态。

这是我们因果世界模型的核心的三个要素。有了这个三个要素，你学习到了整个因果系统，从而你可以做真正的泛化。

比如说当我们把一个机器人模型从一个环境迁到另外一个环境，从一个任务迁到另外一个任务的时候，因为理解了基本规律，所以它可以像我们人一样举一反三，很快地适应新的环境、新的任务。

Koji 杨远骋6:03

就为什么理解因果那么重要呢？因为比如说在大语言模型里面，我们通过这个大粒出奇迹的训练，模型本身它不需要知道因果，它仍然会有它的非常严密的逻辑。

但是在世界模型里面，为什么因果是那么的重要呢？就是不是也会和大语言模型一样，有数据够了、算法好了，最后它的因果会是涌现出来的一个结果？

黄碧薇6:25

这是一个特别好的问题。首先我问 Koji 您一个问题：你知道为什么 LLM 当下它只能在自然语言以及 coding 任务上取得很大成功呢？

Koji 杨远骋6:37

因为我们在世界里面，不管是视频还是真实世界的其他的这个训练的这种数据还不够多。

黄碧薇6:43

嗯，这是一个点。但其实核心是这样子的：因为自然语言和 coding 它是两个非常简单的模态，所以它的信息是只在我语言层面。

比如说我因为今天天气很好，所以我今天要出去逛一圈，这种 " 因为 "" 所以 " 的关系，它已经被总结到我们这个语言表面了。

再加上就是，语言我们把它可以作为一个离散的 token，这是第二点。然后第三点，它当然它的数据量很多啊，因此就是 LLM 这种简单的学习、我数据表层相关性的这种模型范式，它也可以做得很好。

但接下来一旦我们要到更难的具身任务、机器人任务，以及更复杂的各种科研发现，比如说在生物制药、新材料发现、在天文学等等领域，就现在的 LLM 这条范式它显然是不够了。

我举个例子啊，比如说咱们回到具身这个领域，你看机器人，它每次和我这个环境进行交互，或者和我这个物体进行交互，它其实是在做一些 intervention，所以它自然而然地就一定是个因果的过程。

如果它不理解背后的因果关系，没办法把一些操作任务做得很好。比如说我让机器人给我

煎一个 pancake，那如果机器人先它只是看视频学习，它可能只是学到一个表面流程：我先倒个面糊，然后等一会儿，然后再翻面，是吧。

如果只是从视频生成角度看的话，可能觉得 " 哎，它还做得不错，生成的视频还不错，能看的 "。

但如果你走到真正厨房里，每次可能情况都不太一样。比如说这次它锅可能更热，但也可能没那么热，然后面糊可能更厚，也可能更薄，有可能多了一点，也可能少了一点。

你想象一下，如果机器人，或者说我们人，不懂背后的因果关系，它就可能只会机械地模仿。它不会说能够真正地非常灵活应用 " 举一反三 "。

比如说锅很热的时候，我可能等 30 秒就已经糊了，但如果锅不够热的时候，我可能 30 秒还不够。就是我们在物理世界中对操作要求，是比视频生成要求要高很多的。

模型训练8:57

Koji 杨远骋8:57

我们在前面沟通的时候，你有提到说咱们的数据哈，它有一个叫做自循环的系统。可不可以讲一讲这个训练数据它如何自循环起来？

黄碧薇9:09

您说的应该是一个自我进化这样一个概念。对，首先我们从因果的角度去收集数据的时候，我们可以更有提放式地去收集模型到底需要什么样的数据、缺什么样的数据。

比如说你采 1 万条，有可能包含模型所需要的新的信息的可能只有 100 条。那我们其实只需要把这 100 条喂给数据去训模型就可以了。

这是第一点，数据作为模型的输入。然后第二点，数据作为模型输出。当我们这个因果世界模型它训到一定程度之后，它本身就可以做一个 simulator，可以产生非常高质量的，然后包括 long horizon、长程的、包含一些 corner cases 以及可控的 filler cases 的数据。

然后这个数据可以再反补给我们这个因果世界模型去 train。但其实我这里想提一点啊，这边我们因果世界模型作为 simulator，它产生的数据在真机场景中通常是很难采集到的。

所以它相当于其实可以很好地弥补真机数据的一个采集性能不足，以及一些特别在一些 corner case 啊，你可能在利用遥操，你没法去采集到这样的数据。

所以你可以看到，数据输入作为燃料去喂模型，训模型，然后模型再产生高质量的数据，然后反补世界模型的训练。

Koji 杨远骋10:33

你觉得训出第一个 milestone 的模型，它应该是一个什么样的模型？然后这大概在中间需要怎样的数据量，以及怎样的一个算力？

黄碧薇10:46

嗯，我觉得训出第一版的模型的话，我们预期的数据量大概在七八千个小时。然后算力的话，肯定是需要可能几百张卡吧。

我们现在有大概 400 张卡左右。

Koji 杨远骋11:02

那刚才说到这个 8000 个小时的数据，主要是什么样的数据呢？

黄碧薇11:05

嗯，我们数据大概分四个方面。第一个就是

模拟数据产生数据，包括物理模拟器，以及我们这个因果世界模型它自己作为模拟器产生数据。然后第二点是 ego-centric 的数据。

第三点，视频数据。然后第四点，遥操数据。它是最后一公里啊，把我这个背后这个物理规律 back 到机器人身上。

Koji 杨远骋11:32

咱们的这个第一版的模型，在你看来它训出来之后，它是可以泛化到什么程度？

黄碧薇11:37

它可以做非常长程任务啊。第二，它可以有真正思考的能力。比如说家里收拾屋子，我看到账单，OK，这是一个私人物品，我要把这个账单放在抽屉里。

如果看到一本书，那书是比较 public 的东西，那我可能把它就整理好放在书桌上面。然后第三点就是泛化能力。

比如说我碰到一些没有见过的物体，我也能非常自如地操作。然后我碰到一些新的任务，我也能成功操作。

当然这些任务的物理规律，必须是在以前训练数据里 cover 过的。这是我们第一版的一个目标。

Koji 杨远骋12:14

现在通过啊，就咱们做因果的这个模型，已经看到了一些什么样的信号吗？让我们看到足够有信心的一些信号。

黄碧薇12:25

是的，是的。举个简单例子啊，比如说我现在让机器人在训练数据里学会了 lift 这样一个任务，以及 pick and place 这样一个任务，就学会这两个任务。

然后 OK，我现在要测试它了，测试它一个完全新的任务，叫做 stacking，堆叠。它以前从来没做过这个任务。

你想啊，如果一个模型它只是去死记硬背我过去习得的那些技能，而但没有真正理解背后的规律、背后的因果关系，那它会做 stacking 这个任务吗？

显然是不会的。但我们的因果世界模型，它在学会 lift、pick and place 这两个任务之后，它就可以把 stacking 完成得非常完美。

Koji 杨远骋13:08

呃，但除了 stacking 呢，就是其他的这个，比如再复杂一点的任务，也可以吗？

黄碧薇13:14

只要是一些物理规律是 shared 的，它就可以。相对来说，您可以理解一下，它不是我只看表层的，这个任务一步步的步骤是怎么样的，而是它理解背后真正的物理规律。

比如说我现在这个任务是有 10 条物理规律堆叠起来的，如果我这些物理规律是 shared 的，它就可以做得很好。

但当然你出现了一些完全没见过的物理规律，那它也需要再去探索学习一下，像我们人一样。

Koji 杨远骋13:42

所以咱们刚才说到的这个 lift 的任务，然后 pick and place 的任务，这个训练好了之后，为什么 stack 可以？它们之间共享的物理规律是哪几条呀？

黄碧薇13:52

对，你想一下 stacking 有几个过程。stacking 的话，我也要 pick and place，是吧？然后 lift，把它上移。对，所以 stacking 其实相当于是 lift 和 pick and place 这些物理规律加合。

Koji 杨远骋14:08

咱们刚才说的这些部分，有发了一些比较重要的 paper 呀。大家如果感兴趣，也可以去深入地学习和了解。

黄碧薇14:14

对，大家可以看一下我们最近发的一些 paper，包括其中一篇是发表在今年的 ISML 上的，它的 title 叫做《Learning Task-Sufficient World Models by Synergized, Agentic Exploration and Structured Modeling》，以及《Add Diffuser Latent Aware Adaptive Diffusion for Decision Making》等等几篇文章。

Koji 杨远骋14:37

刚才咱们提到的这个效果啊，它是以什么样的数据，以及什么样的数据量给训出来的？

黄碧薇14:44

数据的话，它就是那篇 paper 里做的模拟环境任务，包括 lift 和 pick and place，然后 stacking 这些等等这些任务。数据量的话，嗯，我印象中那篇 paper 数据量它不是很大，大概是上百个小时。

Koji 杨远骋15:00

那咱们所有的这个训练，包括最后的泛化实践，是在一个这个模拟器里面是吗？就是在真实世界里面有开始做这样的训练和最后的验证吗？

黄碧薇15:10

这之前的 paper 里面，我们主要围绕在模拟器里去测试。

Koji 杨远骋15:14

那咱们在真实世界的这个实验的计划是什么？

黄碧薇15:17

我们预期今年吧，肯定会去如类似真机的 demo，然后让显示出机器人这种做长程任务的泛化性和推理能力。

然后我从 14 年进入这个领域之后，我开始想一个问题啊，就是以前那两条范式非常完美的情况下可以做得非常好，但是一旦到真实的物理世界，它可能有很多很多不完美的问题。

比如说你可能很多隐变量，你不能观测到所有的变量，你的数据可能有 bias，可能有 missing value，可能有 distribution shifts。在等等这些问题出现的情况下，我应该怎么样真正能找到背后的因果关系，先从理论上证明，用它算法层面导出来。

这也是我 PhD 阶段，就是在我进入这个领域后，我主要的一些贡献。

Koji 杨远骋16:09

就在一个非常不完美的世界里面，我们仍然想办法去归纳出里面的因果关系。

黄碧薇16:14

是的，是的。

Koji 杨远骋16:16

嗯，对，说到因果的时候，这也是一个这个有蛮久的历史的一个这个学术领域嘛。那在这里面会有学派之分吗？

因果学术史16:16

Koji 杨远骋16:25

就是这里面仍然会有几个很不一样的主流路线吗？

黄碧薇16:29

我们大概有三个门派，早期的时候是相互不太对付的，包括我们因果发现的话是 CMU 派，就 Clark Lynmo、Peter Spurtees。Causal inference 呢，又分为两派，一派是以图为核心的，来去 estimate 我这个 causal effect 是多少。

它的核心人物是 Judea Pearl，UCLA 的教授，也是图灵奖获得者。然后另外一派不以图的，叫做 Potential Outcome Framework，这一派是以哈佛的那个 Donald Rubin 教授为核心的。他们几个都是差不多年纪，都是现在 80 多岁，非常德高望重啊，但他们早期的时候有点三国鼎立，相互不服谁那种状态。

Koji 杨远骋17:10

那咱们呢？咱们是站在这三派当中的哪一派，或者在什么样的中间地带？

黄碧薇17:14

嗯，我们其实主要是 CMU 派的，因为我自己毕业于 CMU 嘛，然后又直接师承了那个 Clark Lynmo、Peter Spurtees 教授，那还有昆章教授。

然后以及我在马普索的时候，核心的那个领导是 Bernhard Schölkopf 嘛，然后 Bernhard Schölkopf 他也是师承的是 CMU 门派。然后当然我们其实很多，当然很多一些 high-level idea 也是被 Judea Pearl 影响得非常非常多。

Koji 杨远骋17:40

可以请黄教授分享一下，就当初你是怎么走上因果 AI 这条道路的吗？就是在我想象当中，很多人的这个学术路线，有可能是一开始就对一个事情产生了强烈的这个热情啊，就主动去寻找各种资源和机会，但也有些时候其实是一些这个巧合，是一些这个命运的安排。

就也很好奇，就是您是怎么走上这条路的。

黄碧薇18:06

我更像那种你说第二种，是非常巧合的一个场合。我当时是在德国读我的研究生，计算神经科学。我当时一开始想的是，我怎么样从人的大脑里面去给 AI 带来注入一些新的 idea。

然后那个那年暑假，我恰巧去听了就是一个 summer school 的课，然后当时去的一个 lecturer 是就是我们 Bernhard Schölkopf 教授去讲授的，然后他讲了 discovery。

那是我第一次听到这个 topic，虽然当时感觉也没有完全听懂，但明明之中就感觉，哎，这个问题特别核心，是真正有意的一个问题。

然后我就去找了实验室相关老师，就开始进入到这个领域。

Koji 杨远骋18:51

就还是说那个 lecturer 给了你一个这种震撼，就是你发现哇，这个是一个非常重要的学术问题。

黄碧薇18:59

我发现从就是因果这个底层去看问题的时候，它可能不仅对你的科研有帮助，甚至对你的日常生活，它也给你一个新的视角，或者说能够直击到一些问题的本质。

Koji 杨远骋19:12

这大概是哪一年呢？

黄碧薇19:14

2013 年。

Koji 杨远骋19:16

所以从那个时候到现在，快过去了 13 年。

黄碧薇19:19

对，然后进一步的啊，随着就是 AI 的发展，我们意识到原本的那一套 machine learning task，它完全是基于相关性去做预测嘛。

然后我们那一自然而然就在想，我怎么样把因果这一套可以更好地去解决 machine learning 与 AI 的任务。然后我们因此做了一系列的任务啊，包括因果、quadratic for 强化学习、分类聚类、非稳态预测、表征学习、迁移学习。

你会发现基本上所有的这种 machine learning tasks 都可以 get benefit from causal understanding。从因果角度来说，都能够给它们带来 performance 上提高、泛化性的增强，以及数据更高效的利用。

然后大模型来了嘛，它是基于相关性的，是吧？那我们就想啊，就是理论上来说，因果 AI 这一套，它一定是更 make sense、更合理的。

但为什么让这个相关性大语言模型反而有一些非常好的应用呢？然后我也是在自己独立之后，CMU 毕业之后开始想这个问题，开始着力于怎么把这个因果理论和这个大模型、大数据结合起来，然后去开创我们下一代的这个 AI 范式，以因果智能为核心。

Koji 杨远骋20:35

这里正好我就也很感兴趣哈，就是其实大语言模型到现在，呃，因果上面的学术成果，它有如何帮到大语言模型吗？

黄碧薇20:44

有的，就是关于因果在过去如何帮到大语言模型啊，它主要分以下两点。第一个，我们是在外部通过传统的因果发现的方法找到变量之间的因果关系，然后我可以把这种因果关系通过一种 RAG 的形式，或者你叫做 prompt 的形式给大模型，从而让大模型的回答可以更加 reliable，减少 hallucination。

这是第一种。第二种方法就是通过改变我大模型里边的一些架构，让它在里面就可以真正学到因果关系，就内外两部分。

Koji 杨远骋21:22

在我们熟知的 OpenAI、Anthropic 或者 Google，在这样的这个大厂里面哈，他们有用刚才那两个方式吗？最后他们有 ship 出这个真的给大家的产品吗？

还是目前这是实验室里面的一些前沿探索？

黄碧薇21:38

我觉得大厂也是有些路径依赖的，因为毕竟对于 OpenAI、Anthropic 来说，他们是 LLM 这条范式的开创者嘛，他们还是以围绕 LLM 这条在走，还没有真正的就是走到因果这条道路上来。

Koji 杨远骋21:56

嗯，那其实我理解这个黄教授，你创业有两个选择吧，一个选择呢，就是用因果去做更好的 LLM，那另外一套呢，是用因果去到世界模型去影响具身。

就这个您是怎么选的呀？

黄碧薇22:15

咱们现在对于 LLM 大语言模型，在语言任务和在 coding 任务上，它相对来说已经做得很不错了，已经达到了 90 分。

对于具身来说呢，它基本上 10 分的状态，就我更想把这个 10 分推到 90 分。

Koji 杨远骋22:32

可不可以稍微往回退一点啊，给我们介绍一下，就是因果 AI 这一整条学术脉络的历史。

黄碧薇22:39

我从最早开始讲啊，就是最早就是其实因果是在哲学领域被大家探索了 2000 年的，西方从亚里士多德开始，中国更早从易经开始，就哲学家们都开始在探索我到底应该怎么样定义这个因果。在哲学上定义了 2000 多年，他们直到近代才有一个明显的结论。

近代因果定义是基于相关性的，A causes B。如果当前紧当，当我改变 A 或者说 intervene on A 的时候，我 B 的概率发生变化，那我就 make a conclusion A causes B。

这是现代就是用的关于因果的定义。然后因果最早应用其实是在临床医学上，随机对照实验，或者说也叫双盲实验，就是大家想知道到底某药对你某个疾病是不是有效果。

我随机地把这些 subjects 分成两组，一组是给药，一组是给安慰剂，然后我看这个药到底是对那个对这个疾病有没有效果。

就是最早通过做实验的方式来找到背后因果关系。但大家想做实验的方式非常贵，然后有的时候你没法做实验，你也没法真正做 intervention。

所以在 80 年代末的时候，CMU 的三位教授就意识到，OK，那仅仅通过做 RCT 随机对照实验这种方法，它很多时候是不可取的。

但另一方面，我们又有很多观测数据，那我们能不能从观测数据里面去挖掘到背后的因果关系呢？CMU 的教授啊，Clark Lynmo、Peter Spurtees and Richard Shine，他们三个第一次提出了这个 PC 算法。PC 算法也就是说，我怎么样从观测数据里通过更复杂统计的方法，它 more than correlation 的，找到背后的这个因果结构是什么样子的。

这一套方法的话，大概从呃 89 年发展到 97 年左右，对，然后这块发展非常好啊，然后涌现出了包括我们 CMU 出了一些非常厉害的人物。

当然 97 年之后这个节点大家发现，哎，可能很难做下去了。因此 97 年到呃 06 年吧，中间其实是比较空白的一段时间，然后直到 06 年，芬兰的科学家就发现了一些更深层的性质。他们发现在非高斯的时候，我有一些额外的性质，可以找到任何两个变量之间的因果方向，到底是 A cause B 还是 B cause A，仅仅从观测数据里。

然后这套方法关键性人物，包括我以前的 PhD 导师昆章、Bernhard Schölkopf 等等。

Koji 杨远骋25:18

咱们刚才说到四类数据哈，这个方不方便讲一讲，目前对于这四类数据大概是一个什么样的配比啊？

我们目前已经开始有一些最佳实践了吗？

黄碧薇25:28

嗯，配比是这样子的，大概呃前三类啊，模拟数据加 ego-centric 数据加 video 数据大概占了 80%，然后遥操数据大概占 20%。

Koji 杨远骋25:40

哎，其实刚才咱们在提到我们的第一版模型想要实现的目标的时候，呃听起来这个和这个呃 world action model，就今天另外嗯可能更多人在做的事情是呃相同的目标。

嗯，那你会怎么看大家最后呃分别的优势和劣势是什么呢？

路线对比25:59

黄碧薇25:59

嗯，我觉得呃现在的 world action model，它是比较像这个 VLA 的一个变体，一个加强版。对，但是为什么我们短期内会看到 world action model 有些比较好的效果呢？

是因为我们的 video 数据比较多，所以它 video action model 首先是这样做的，它通过先 predict 预测下一周的 video 是什么样子，然后再去反向去推背后动作是什么样子的。

对于我们的因果世界模型来说的话，它是更符合这个世界运行规律的，它是更呃更合理说我们应该是一个 action condition 的 world model，加上一个 policy model。

Koji 杨远骋26:39

你从这个 world action model 或者之前更早的 VLA 等等得到的这个最重要的对您的工作的启发是什么？

黄碧薇26:47

对于 VLA model 的话，我在 VLM 上加了一个 action head，但其实我觉得它那其实那个方法也不是很完美，因为大家还是在想着就是从 language 角度去做这个问题，但其实看 action 的时候应该从 time series 角度去看。

Koji 杨远骋27:03

可能我们听到更多的都是人在讲 WLM 怎么好，VLA 怎么不好，也想听你分享一下对 VLA 对 WLM 的看法。

黄碧薇27:11

我从 VLA 起源来说啊，大家为什么会一开始选择 VLA 这条路呢？是因为就是大家就是看到 LLM 在自然语言上成功，大家觉得比如说桌面我高了 2 厘米，它可能呃就就这个任务就失败了。

核心的原因还是因为 action 那端它是个连续空间，但是你很难在训练数据里把这所有连续空间可能的这种呃状态都呃收集到。

这是就是 VLA 为什么没有泛化能力的，为什么在知识世界它表现不太好的一个核心的原因。然后第二个，现在大家开始都转向 WAM 了，我觉得 WAM 算作一个中间态，它会比现阶段它会比 VLA 好一些。

核心的原因还是因为就是我们的 video 数据更多，因此它可以就是先通过预测下一帧的视频是怎么样的，然后反过来通过 IDM inverse dynamic model 去学习这两帧之间 action 是什么样子的。

所以您可以看到，它其实不是一个自然的这个状态迁移的过程啊，自然状态迁移是什么样子？我在现在状态 T，我现在给一个 action，然后看看它达到下一个状态，在 T 加一时刻状态是怎么样的。

所以呃就总结一下我我的回答，比如说咱们总分是 10 分，我觉得 VLA 天花板可能是比如说 5 分，WAM 的话可能是能够达到个 6.5 分，但它一定是一个中间路线，达不到我们最后想实现的目标。

所以我觉得 finally 我们的模型形式，它一定是一个 action condition 的 world model，然后再加上 policy model。

Koji 杨远骋28:50

那你给因果这条路线打几分？

黄碧薇28:53

首先就是谈到因果的时候，其实你有很多层要不同层面，每个层面都去实现因果。如果你在每个点上都实现了，我觉得就是 10 分。

当然对我们公司来说，我们也是一步步就是呃一步步就是加入，在各个层面加入因果，不会说一下特别激进的我就直接冲那个 10 分。

Koji 杨远骋29:15

换一个角度啊，如果今天 world action model 的朋友们来看咱们的路线，你觉得他们对咱们目前最大的质疑呃或者这个批评，你觉得会是什么呢？

就如果当他们来点评因果 AI 的时候。

黄碧薇29:30

我觉得就首先啊，其实市场上普遍认为因果一定是一个我们要实现目标，这是就毋庸置疑的，大家是有共识的。

但质疑点就是在于怎么样实现这个因果世界模型，其实这还是特别难的一个问题。真正懂因果的其实在这个市场上或者在学术界都不是很多。

Koji 杨远骋29:54

LLM 是让大家看到了这个堆数据的吧，会出现 scaling law，但在因果这边大家是会怀疑并不是靠足够多的数据就会出现这样的结果吗？

还是说对路线有别的一些这样的这个担心？

黄碧薇30:09

他们在担心怎么实现。我们要实现三点，就是对任何的输入数据，比如说 video 也好，time series 也好，或一些一些 sensor signal 也好，我怎么从这些数据 raw data 里面提取出背后的因果变量，同时学习因果结构，以及学习这个因果系统如何随着时间变化。

大家呃不太确定到底怎么实现。

Koji 杨远骋30:34

哎，所以大家不认为这个 scaling law 一定就能够实现是吗？

黄碧薇30:37

我们现在说这个 scaling law，它也是比较比较 vague，比较虚的。我们应该这样看 scaling law，它一定要和数据质量模型去绑定，而不是仅仅说我能不能实现 scaling law。

比如说我们 LLM，我加 100 万条数据，然后我们能增加 20% 的 performance，但如果真正一个懂因果、懂核心底层规律的模型，它可能只需要呃 20 万条数据就可以达到一样 performance。

Koji 杨远骋31:10

那咱们现在出来创业，我觉得这又是一个非常大的这个人生的决定吧。那这一次创业有什么样的 trigger 吗？

创业抉择31:10

Koji 杨远骋31:17

你是有看到比如说某个具体的信号，或者被一个什么样的事情所激发？

黄碧薇31:23

对，我觉得这个还是有一些内外的 trigger 的。首先我说一下，就是一直以来我觉得科研和创业一直是我唯二想做的事情啊，就是必须要做两件事情。

对，然后对于科研来说的话，我在因果 AI 这个领域探索 12、3 年，我们已经把一些非常复杂的问题都解决差不多了。

所以说从内在讲的话，我觉得就 ready for 在商业层面，在应用层面一些实现。然后外部来说的话，你可以看到就是这几年 AI 发展特别迅猛嘛，从大语言模型这个范式可以做得很好，没有问题。

但是具身智能，就 VLA 这条路线显然是已经碰壁了，但还是在想着能不能通过堆数据来解决这个问题。

所以我觉得在这个时间点上，就是我一定要把我学了这么多年的这因果相关东西应用出来，然后一起去和大家一起去解决我这个机器人大脑这个难题。

Koji 杨远骋32:23

哎，你刚才有说这个科研和创业是你觉得自己一定要做的两件事情，是什么原因让你觉得创业是一定要做的事情呢？

黄碧薇32:33

科研它是从 idea 到一个 paper 为成果，然后创业呢，它是要把这个简单的 paper 层面的成果，可能是算法，是个小模型这样的成果，然后真正转化为一个系统性的、可以商业化的这样的成果，然后可以服务到更多的人。

对，paper 层面它可能服务的只是少部分我的科研群体，当你把它真正做成产品之后，你服务的可能就是千家万户，可以让机器人可以给大家来服务，可以给大家比如说呃整理做家务啊，给大家做菜啊等等。

Koji 杨远骋33:06

因为其实不是每个人都觉得自己一定要创业的，而且我觉得其实在人群里面，觉得我一定要创业的人应该是可能比 1% 甚至千分之一还要低。

然后再到学术领域，我想象啊，可能这个比例会再低一点。呃，因为如果想创业，可能就更早就耐不住寂寞，开始去做生意了。

但是学术其实还是一个挺需要耐心，需要这个相信，慢慢的去这个呃打磨一个东西的一个这样的人生状态。

就是呃在你看来，你是有没有人生的某一个阶段或者某一个时刻，你意识到自己其实不只是一个教授，不只是一个学者，而是呃我也是要去做一个企业家，做一个创业者的？

黄碧薇33:47

我觉得突然转机是 25 年初的时候，和朋友聊起这个事情，聊到具身智能，聊到具身智能现状，聊到现在 AI 现状，然后突然就 trigger 了我这个我现在一定要做创业这个想法。

Koji 杨远骋34:00

是一个什么样的朋友，然后他是以什么样的方式点燃了你的这个创业激情？

黄碧薇34:04

我当时的一个朋友跟我聊，就是现在这工厂里机器人和自动化的这状况，当时机器人已经进厂打工了嘛，但是发现就是测试了一阵子之后，机器人又被退回去了。

就因为它没法真正的就替代人类去做这个事情，反而成了一个工厂里的一个负担，因为他们缺了一个非常智慧的大脑。

所以我觉得嗯，那不是就是因果 AI 最擅长的事情吗？那我就觉得这是一个 right time for me，我应该要要开始做这件事情。

Koji 杨远骋34:37

确实最近哈，教授和 PhD 的创业是一大股热潮，但这里面我理解还是有受到大语言模型的这个成功所带来的激发。

呃，那在你看来，你觉得自己现在更像是一个科学家在创业，还是一个企业家在做学术？呃，以及这两者它的这个不同是什么？

黄碧薇34:58

我觉得应该这两者在我身上都是有所体现的。一，我肯定是一个就是科学家，然后再来做创业这件事情。

同时呢，因为我们是更 fundamental 的一个技术的革新嘛，我们要开创这下一代因果智能为核心的这样的 AI 范式，所以创业对于我们来说，它又和科研不可区分。

因为我们的公司，它更像是一个 front tier lab 的这种形式，我们要通过对底层技术的这种发明创造，然后从而机器人大脑真正可以得到突破，从而可以服务呃服务于大家。

Koji 杨远骋35:33

因为我们的这个播客的观众里面，其实有蛮多都是 PhD 或者都是这个在学术领域的朋友啊，然后我觉得在今天前所未有的出现了一个这个教授和 PhD 创业的热潮。

博士之问35:33

Koji 杨远骋35:47

但另一方面呢，我觉得其实大家也会呃有一些困惑或者迷茫，就是说在今天你看 AI 已经那么厉害了，它可以写代码，甚至可以写论文。

呃，所以我也很好奇，就是黄教授你会怎么看，就是做科研的这件事情，在今天它有发生一些本质的变化吗？

就科研的门槛在你看来是升高了还是降低了？

黄碧薇36:08

嗯，我觉得这是一个特别好的问题啊。首先我觉得就是你要做真正核心、真正开创性的科研的门槛还是没有变的，但如果只是做一些简单的科研，确实它的门槛变得很低。

因为你可以快速的，比如说写 code、写文章，我们要拥抱 AI，但不依赖 AI，就是你要去 make use of AI，而不是让 AI 来控制你的思维。

Koji 杨远骋36:34

这里可以稍微具体一点吗？就比如说你自己在工作的过程中，有什么时候是你觉得你自己在用 AI，而是这个又没有被 AI 控制，这中间这种微妙的这个区别在哪里？

黄碧薇36:46

首先你的核心的思想，一些创造性的思想一定是得是自己的。对 research 来说，我觉得最宝贵的就是一些 creative idea，一些批判性的意见。

Koji 杨远骋36:57

对于今天一个年轻的学生，他要怎么去更好的训练这样的能力啊？

黄碧薇37:01

首先还是需要一些时间的积累的，在生活当中、你工作当中、科研当中有意识的去思考，比如说我这篇文章这个方法为什么这样做，如果我换一种想法是吧，它是不是能够更好的。

年轻的研究者啊，可能也不要就是完全 follow 现在潮流，因为什么叫潮流？潮流就是现在已经相对来说已经比较成熟的，我们要去跨过潮流，看到下一个潮流在哪里，然后往那个方向去努力。

Koji 杨远骋37:33

在这个大语言模型这么如火如荼的过去几年，就在因果的这个学术圈子里面，大家的心情是什么？

黄碧薇37:42

我觉得是分两派啊，一派的研究者，特别是那些呃比较资深的研究者，他们还是心如止水，就是做我自己觉得更有意义的理论上的科研工作。

然后一些年轻的研究者的话，他们也涉及到找工作，所以他们也是希望去把这个因果和现在流行趋势去去结合起来，然后既能写很好的文章，然后又之后能找到很好的工作。

Koji 杨远骋38:12

那黄教授您自己呢？就是从比如说你看到 ChatGPT 发布的那一刻，你还记得那是一个什么样的 moment 吗？你自己有一些什么样的这个想法、感受，然后以及后面的这四年时间，有你自己的一些心路历程。

黄碧薇38:25

我当时印象是特别深啊，我是做了深刻反思的。我在反思明明因果 AI 这一套东西，它是更合理的，为什么是 LLM 吸引了所有人的注意力。其实我当时就是在 LLM 火之前，我的一个就是一个思路，就是如果我们能够把把因果发现背后的假设降得非常非常弱，也就是说不需要很强的假设，我就能找到背后因果关系。

比如说你允许很多隐变量的存在，允许数据里有 bias、distribution shifts、missing value 等等各种问题，那我们自然而然就可以把就是因果发现这个任务完全解决了。

但后来大语言模型出现让我在沉思，我以前没有意识到一个问题，数据就是数据量堆叠，它是有用的。

你要这样想，虽然说我们现在 LLM 它仅仅是靠大数据，然后抽取表层很简单的信息，它已经能够做得很不错了，但如果我们在这些大数据的基础上，我有更深入的方法去挖掘背后更深层的信息，把两者兼顾一下，达到更好的一个效果。

Koji 杨远骋39:36

所以你看到 ChatGPT 发布，就是 LLM 如日中天，你是有呃刚才提到的深刻反思，那还有一些其他后面的这个阶段吗？

比如说呃从看到它到今天自己决定创业，这中间有没有几个典型的阶段，这些阶段中间有没有一些典型的这个转折事件？

黄碧薇39:54

典型阶段就是我自己从开始反思这件事情啊，有意识的往这个研究方向走，包括如何从因果角度更好解决现现有的语言模型，比如说一些 hallucination，提高它一些 performance。

刚才您提到为什么我选具身的，不选 LLM 去落地呢？因为我我觉得就是随着 LLM 一代一代的更新替换，确实它的能力涨得非常快，所以只往 LLM 领域走，可能它的增益非常有限。

接着我就开始有意识的往具身、往物理 AI 这个领域走，因果世界模型想要去把物理世界 AI 能够真正的解决。

我觉得就是差不多这两个阶段，一个早期的在 LLM 阶段，然后转换到我要建立我自己因果世界模型在具身领域。

Koji 杨远骋40:43

咱们如果自己做这个因果世界模型，数据我们要完全自己采吗？还是就是你会觉得这个今天已经有不错的数据的供应商，我们可以从三方来采？

黄碧薇40:53

大部分都是我们自己就是产生的数据，包括刚才说的模拟数据，因为我们对模拟数据的话，我们可以无限量采集。

最后一公里的那个遥操数据的话，我们是就是自己采小部分，供应商那里去定制一些数据。

Koji 杨远骋41:09

就如果今天有一个本科生来问你说黄教授，嗯，那这个世界都这样了，我们应该非常快的去产业界，应该这个不要再读 PhD 了，那遇到这样的问题你会怎么回答？

就是什么样的人应该继续读 PhD，什么样的人现在应该就可以不用读了，赶紧去产业界？

黄碧薇41:27

嗯，这是一个特别好的问题。其实我对 PhD 的认知，对它理解一直都没有变化。我一直觉得就是只有真正对研究有渴望的人才应该来读 PhD。

如果只是想要获得个学位，其实不用花个五六年时间来读 PhD，你可能错失很多赚钱的机会。

Koji 杨远骋41:49

那一个人要怎么识别自己对于研究的这个欲望是真的欲望啊？

黄碧薇41:54

可能比较理想化的人会更适合读 PhD 一些。现在 AI 时代每天都是热点，就不应该被那些热点带着跑，而他有自己的一套思想、一套理论。

我应该走怎么样的道路，对于一个真正想读 PhD 的人来说，需要识别外面到底哪些是噪声，哪些是真正自己需要的。

Koji 杨远骋42:16

哎，这个听起来很容易，但是做起来我相信是非常难的，尤其是可能你的同学们啊，他们没有做科研，他们去了 OpenAI，他们现在已经一年 3,000 万美金了。

呃，这是你有什么建议吗？在这样的一个时代要要怎么做？就是真的想静下心来做科研。

黄碧薇42:33

确实可能如您所说啊，在做真正做科研之前，可能很多人都不能非常好的认识到自己到底是需要什么。

对于那些能认识到自己真正喜欢的是科研，想去探索人类未知的那块领域的话，那肯定是就毫无疑问就该读 PhD。

然后对于那些可能并不是太完全清楚自己需要什么的话，可能可以嗯，可以其实尝试一下，你先比如说选择读 PhD，或者先选择去业界，然后比如说感觉不太适合了再换。

因为现在工业界和学术界的压迫更低了。

Koji 杨远骋43:09

就大家更自由、更灵活了，也可以这个不是说选一条路就得走到黑的。

黄碧薇43:14

是。

行业趋势43:14

Koji 杨远骋43:14

嗯，哎，就你会认为大语言模型的天花板可能会在什么样的时候，以什么样的形式出现吗？

黄碧薇43:22

嗯，我觉得这是看任务的。其实在具身任务上面，大语言模型天花板已经出现了。我不知道 Koji 你有没有注意到，就是最近大家其实越来越开始提到因果这个词啊，这是让我觉得非常欣慰的地方。

大家自己起码开始意识到了，就是我们目标一定是要学一个真正懂因果结构、懂背后的底层规律的这样一个模型，而不是通过简单的这个 pattern matching 的模式。

Koji 杨远骋43:47

那最近提到这个聊因果的人越来越多，可以具体讲一讲吗？比如说呃，尤其是这个在咱们因果学术圈之外，有时候有谁以什么样的方式提到了因果，让你感觉嗯，很好，终于有更多人开始关注因果这个重要路线了。

黄碧薇44:01

就包括咱们主治杨乐坤，他其实在最近的一些访谈中，其实都是就强调从 high level 去讲述到了这个因果，然后以及因果能够实现的 performance 层面提高。

然后包括其实李菲菲老师，她的一些我觉得 high level idea 也是和因果有关的，虽然有的时候他们可能没有直接提因果这个词。

比如说中国的产业界，我们也经常听到一些加上因果这个词的模型，比如说 DeepSeek 之前的模型也加了因果这个词。

虽然说我觉得现阶段大多数团队做因果的探索，可能要么到 high level 有这个意识，要么可能只在一些比较简单的点上真正做到因果，比如说过去去预测未来。

但是就是真正能从一些本质点，比如说刚才提到的因果世界模型要实现三大部分，就是第一是你要学习因果变量，第二学习因果结构，第三学习因果动力学。

真正走走走到这一层呢，应该是呃，我觉得应该是我们团队是仅有的。班主啊，三巨头图灵奖的获得者之一啊，他曾经也是对我们的就是因果模型这一套非常上头，就非常感兴趣啊。

我们其实有过一些非常深度的深度的这种呃，去怎么解决这个因果啊，因果发现这种这种呃问题的一些一些探讨。

对，然后他也也就是 cite 我很多 paper。

Koji 杨远骋45:31

哎，你和杨丽坤教授，包括和这个李菲菲教授有过交流吗？就是因果这个事情。

黄碧薇45:38

嗯，我和杨丽坤教授是之前有过交流的。有次我想邀请他来我们呃，参加我们举办一个 workshop，然后虽然说他那次在巴黎有一个就是一个 conflict 的会议没有过来，但是他当时在邮件里就表达了他对就是这个路线的一些肯定。

融资与团队45:55

Koji 杨远骋45:55

就咱们这一次融资，这个融了 2,000 万美金啊，是还是这个呃，很大的一笔金额。然后你会打算这笔钱投到什么地方去啊？

黄碧薇46:05

有三大块，算力、数据、加我们的人才招聘。

Koji 杨远骋46:08

你有从学术圈融资吗？就你有除了这个从 VC，有从这个比如说教授们或学术大佬那边就进行融资吗？

黄碧薇46:16

大部分的融资肯定是从 VC 那边来的，然后小部分的话就是友情啊，友情赞助，像相当于说我 trust 你这个方向，我肯定不能要他们太多钱嘛。

Koji 杨远骋46:26

我们刚才也提到，除了算力和数据，还是希望有更多的这个人才可以加入嘛，对吧？这也是融资的资金要去重点花的地方。

那可以讲一讲咱们目前最需要哪些方面的人才吗？

黄碧薇46:37

我们非常需要广纳贤才啊，人才包括一是你对 AI 算法，特别是因果这块算法抱有很大热情，以及有些呃，有经验的。

第二，你在模型训练方面，特别是在视频生成模型方面，有很强的训练呃，训练的经验。然后以及第三啊，robotics full stack，就是你不仅精通我传统的机器人控制算法以及硬件，又对我们当下的 AI 的进展，比如说模型算法有比较了解的。

就这些人才都是我们非常急需的。如果呃，您是这块有专家，欢迎联系我。

Koji 杨远骋47:13

对，如果听我们播客的这个朋友们感兴趣，可以这个去联系黄教授啊。下一个问题是我想知道，如果在五年之后啊，我们回头看 2026 年，今天这个世界模型啊，就是锣鼓震天，就是全世界好像都在关注。

未来之问47:13

Koji 杨远骋47:28

呃，你觉得五年后回头看，在今天有哪些可能是错的？

黄碧薇47:33

嗯，其实我觉得就是也不能严格的说错吧，就是在探索路上总归是一步步来的。就每步它会留下一些东西，但肯定现在的一些模型范式它不会是终局。

比如说呃，VLA 不是终局，但是它带来了 action had 的一些建模方式。WAM 可能也不是终局，但它带入了怎么样从我我的视频生成模型变为这个世界模型的中间的产物。

所以我觉得就是呃，它存在还是都是有道理的。

Koji 杨远骋48:06

我们假设有一个上帝，呃，就是他无所不能，他预知未来啊。如果你可以问他一个关于 AI、关于世界模型的问题，你会想问他什么？

黄碧薇48:17

OK，我我可能想问他就是嗯

，因果是客观存在的呢，还是说呃，它是可能人基于这个理解，它可以更好的去 understand 的这个世界。就像时间一样，其实时间是否存在，这大家有的时候也不是完全确定的事情。

下一个问题就是因果到底是不是真实存在的。

Koji 杨远骋48:43

哇，这是一个非常深刻的问题。嗯，如果因果不存在，我觉得我们会集体陷入存在主义的巨型危机。

黄碧薇48:52

对，这个我觉得大家就是在在茶余饭后跟朋友闲聊的时候可以 argue 一下。但是我觉得大家就是还是在平时生活当中的时候，可以务实一点，就假设时间存在，我们物理世界真实存在，因果真实存在。

Koji 杨远骋49:08

OK，好呀，今天很开心请到黄教授来做这一期播客。好，谢谢你的时间，我们呃，争取有机会等你的 demo 出来之后可以再聊一次，可以给大家再讲一讲在因果上面的一些新进展。

好，谢谢。

黄碧薇49:22

好的，谢谢 Koji，谢谢十字路口，谢谢大家。

Koji 杨远骋49:25

嗯，好，拜拜。

黄碧薇49:26

好，拜拜。