开场0:00
因为它太难用了 。
字节和微信是一个右脑一个左脑 。
把自己的优势发挥到极致 , 既有信念又有能力 。
做一个好的产品经理 , 最重要的事情有哪些 ?
50% 的自信和 50% 的自信 。 一定要对技术敏感 。
冲突是做事的力量 。
老链路先不做了 , 全部切到 Sora 2。 她非常的悲伤 , 她非常的欢乐 , 她非常的治愈 , 真的非常幸运 。
OK, 好 , 好呀 ,OK。 哈喽 , 大家好 , 我是 Koji, 本周十字路口的嘉宾是闹闹 。 哈喽 , 闹闹 。
哈喽 , 哈喽 。
和大家打个招呼 。
哈喽 , 哈喽 , 我是闹闹 。
闹闹是视频 Agent OiiOii 的创始人和 CEO。 最近我在即刻上看到有一个网友说 ,他说最近半年都没有发现什么让我感觉非常 surprise 的新产品了 , 直到遇到了 OiiOii。
那我自己也试着用 OiiOii 来给我的女儿做了圣诞歌曲的 MV, 然后做下来她们很喜欢 , 一直在循规播放 。
对 , 对 , 对 。 现在确实会有一些家长会给孩子每天都会做一个小的视频 。
每天做一个 。
对 , 每天做一个小视频 。 然后还有那种老师给孩子们做一些科普的小视频 ,也是用动画 。 跟我们设想中的创作者还挺不一样的 。
是吧 。OK, 好的 。 你好 , 闹闹 , 欢迎来到十字路口 。
哈喽 。
然后我们有一个节目的传统 , 就是还是先从快问快答开始 。
快问1:16
好的 。
请问你的年龄 ?
不是说不问的吗 ?
我们上一个嘉宾说的是这个 , 那个 , 我还在一个能打的年龄 。 对 ,但是没关系 , 我们要的也是这个效果 。
好的 。
对 , 然后毕业院校 ?
中山大学 。
OK。 然后你的 MBTI 和星座呢 ?
MBTI 是 INTJ, 然后星座是狮子座 。
用一句话介绍一下现在在做的事情 。
就是用 AI 来做动画 。
然后目前公司的融资情况 ?
在做 pre-event 的融资 , 马上快结束了 。
OK。 方便介绍一下目前的收入和利润情况吗 ?
因为我们刚成立大概 4 个月左右吧 , 然后其实没有收入 , 没有利润 。
也刚发布一个月 , 对吧 ?
对 , 刚发布一个月 。
现在还需要验证码吗 ? 还需要那个邀请码吗 ?
还需要邀请码 。
OK。 目前的团队规模呢 ?
全职 18 到 19 个人吧 。
创业之前做过些什么 ?
一直在做产品经理 , 然后在做创业和在做跟视频创作相关的事情 。 一直是在视频创作领域 , 然后包括自己去做工作室 , 然后包括要做创作工具 。
无论如何 , 反正都是在视频内容创作这个领域里头 。
你之前在哪些地方做过产品经理 ?
最开始是去的腾讯吧 。 然后腾讯的话 , 我们当时是在微信事业群 , 我在做 QQ 邮箱的移动端 。2014 年就开始创业了 , 做一个极限运动的内容社区 。
我们就自己去拍一些全国各地的极限运动的达人, 然后这时候积累了很多关于内容制作的这种经验 。 然后做了大概有 6 年时间 。
然后后来是因为在内容制作这块积累了比较多的经验 , 且有产品的经验 , 然后就去了字节做整个剪映的负责人, 还有当时那个抖音 、TikTok 的特效这块的业务 。
然后又是因为非常喜欢动画 , 所以在 B 站也做了 B 站的动画的负责人。 大概是这样的一个历程 。
哇 , 非常丰富的经历 。OK。 如果不创业的话 , 你会认为此刻今天自己在做什么 ?
我估计可能会在一个没有太有人的地方隐居吧 。
隐居 。 那每天做什么呢 ? 隐居的内容是什么 ?
就是我想想 , 可能就是养一些小动物 , 然后没有了 , 就是生活着就行了 。
你是闲得住的人吗 ?
我现在是很闲得住的人。
以前不是 ?
对 。 就是闲住的这个状态 , 我觉得是给自己非常充电的状态 , 就是享受此时此刻的那种状态 。
以前的闲不住是因为你总是觉得闲 , 可能应该做点什么事 , 它反而是一种非常外拓的一种状态 。 两种状态不太一样 。
这个状态叫外拓 ?
就比如说 ,有点像安静不下来嘛 。 那你安静不下来 ,其实是你的心在想着我一定要做点什么 , 好像才值得 。
对 , 必须要构建一些意义 。 安静的呆着好像构建不了什么意义 。
对 ,但实际上是没有享受过安静的那个意义 。 如果说知道了安静的意义 , 它会因为安静在释放掉安静的力量 , 我觉得可能会更那个圆满一点 。
好深刻呀 。OK。 刚才其实我们提到了经历 , 我其实觉得还蛮有意思的 。 我觉得其实你真的身上的故事非常的多 , 能聊的事也特别多 。
然后我知道闹闹其实之前你有一段在做产品经理的中间的一个这个自己的 gap 的半年, 然后那半年你应该是去学动画了 。
对 , 从腾讯出来 。 然后当时我就很喜欢做内容吧 ,但是还是很喜欢动画 。 我就说要不就去学学动画 , 看看自己能不能从事这个行业 。
所以那个时候去哪里学的 ?
就是报那种班 , 就是有很多这个培训班 , 比如说我们先学角色设计 , 对吧 ? 然后我们就报这个插画班去学角色设计 , 所以就学了大概几个月 。
然后后来又学了像玛雅这种做 3D 的动画的这个软件 。 然后那个时候我就觉得非常的困难 ,因为它太难用了 。
因为自己做过产品经理 , 所以对于非常难用的产品 , 它天然的会有一种抵触 。 然后我就觉得可能自己不太适合这一行 。
再加上其实整个动画行业 , 它的整个薪资啊 , 或者是真的就是在为爱发电很多时候 。 然后我当时也是没有勇气 , 然后就觉得还是进不了这个行业 。
所以那之后开始上一段创业 。
对 , 对 , 对 ,是的 。其实那一段时间我也碰到过很多在动画界里头让我非常钦佩的人, 一些非常普通的动画的创作者 。
然后我记得当时去了一个一家那个特效公司 , 它是做建模的 。 然后去那家公司参观的时候 , 就是整个公司非常的昏暗 ,也没有空调 。
我们去跟那个人聊 ,他说是一个建模的总监 , 只是工作了 5 年, 工作了 5 年以后他的工资是 1 万 。 但是我们在他的眼睛里就看到了非常强的那种光 , 就是虽然感觉这个生活很苦 , 然后但是他还是非常在有光的在介绍他自己的工作 。
我就非常的佩服 。
我们待会会在后面展开聊一聊做产品经理的故事和一些心得 ,但我们今天还是想更多的把时间精力放在聊 OiiOii 上 。
可以 , 可以 , 可以 。
Agent6:40
你大概是什么时候开始有了这个起心动念想要做 OiiOii?
首先做动画这件事情是我从大学就开始想做 ,但没机会做 。 然后做 OiiOii 我印象中是在字节工作的时候 , 当时是 22 年, 图像生成的 DALL·E 2, 然后出来 。
我就觉得哇 , 这个很好 。 我第一时间就想到的是动画 , 我说这个可以做动画 。 对 , 所以其实那个时候我就想做动画这件事情 ,但怎么切我还不知道 。
然后所以后来无论是去 B 站了解整个动画的行业也好 , 还是之前我们做过离谱嘛 , 都是在这个里头在试探它到底怎么去 , 第一是要了解这个行业 , 第二是试探怎么切进去 。
然后最后自己创业的时候才找到这个切入口来切到这个行业 。
你是在什么时间点看到了一个切入口就可以做 OiiOii 了 ?
我觉得可能一是被动的 , 二是主动的 。 这个被动是指在那个时间点的时候 , 我们可能在前一个环境下它很难再做下去了 , 然后那我们必须得出来自己做 。
然后主动的点是我们在做的时候会发现多模的模型它开始卷起来了 , 就跟以前这个语言模型开始卷起来的那个势头是有点类似的 。
它也是个好时机 , 就是大概今年上半年开始 。
你觉得做 OiiOii 的过程中你有受到过哪些 AI 产品的启发吗 ?
对 , 对 , 对 ,有的 ,有的 。 我觉得启发是这样 , 就是因为今年上半年开始 Agent 它就开始出来火了嘛 。 我们出来之后在想以什么样的方式去切入到做动画的时候 , 发现 Agent 是一个非常完美的形态 ,因为它首先是可以调用各种模型 , 然后第二是动画的整个制作其实它就是一个流式的这种制作 , 所以它的流水线调用各种职业去配合完成一件成品 ,是非常适合用
Agent 的方式来做的 。 然后第三个是 Agent 的方式它又跟传统的 GUI 不太一样 , 就是它是一个创作者自由度非常高的这种形态 。
然后传统的 GUI 来做创作工具的话 , 都是会把功能做无限的叠加的过程 ,但 Agent 不会 。 所以综合来看 , 反而它是最匹配的时候 , 我们就用了 Agent 这种形态来做 OiiOii 了 。
你们有没有这个什么样的模型能力的解锁 ,也对 OiiOii 的这种帮助比较大 ?
我们是从 7 月份规划 , 然后 8 月份开始做 。 然后 8 月份开始做 , 我们第一个版本其实跟现在的很多 Agent 的那个路线是一样的 。
因为其实如果对于 AI 视频这个赛道比较感兴趣的话 , 它可能会分成两种生成模式 , 或者两个帮派 , 一个叫多参 , 就是多种图片做参考图的这种多参中, 这是一个宗门 。
然后第二种就是叫首尾帧 。 所以其实我们国内的很多这个视频模型 , 它其实是这种首尾帧特别擅长的 。
那我们和其他的 Agent 有点类似 , 就是之前首尾帧这块的稳定性会更好一点嘛 , 就是在某一个镜头里头的稳定性会更好一点 。
所以我们也采用了首尾帧的方式来做各种模型的调用 。
就比如说我一共 8 个镜头 , 我可能就要做 9 张图 , 然后就这样首尾首尾一直衔接下去 。
对 , 对 , 对 。
9 张图出来之后再首尾帧生成一段一段小视频就拼起来 。
对 , 对 , 对 ,是的 。 然后我们当时有一个创新点是 ,因为你的每一个分镜它其实要表达的内容是不一样的 , 代表着它运用到的这个模型它其实是不一样的 。
我举个例子 , 你这个镜头是要表现武打 , 那武打最好的模型是什么 ? 然后如果你这个镜头表达的是这个人物的情绪 , 那你表达人物情绪的最好的模型是什么 ?
我们会有一个 task agent, 它会知道每个模型的优缺点 , 然后自动帮你配到那个镜头 。 这个是我们当时的创新点 。
这个在我们做了一个月以后 ,其实当时的效果就已经比较好了 , 只不过我们后面要加 TTS 和背景音乐加上音效 。
这个正在加的时候 Sora 2 出来了 。 然后 Sora 2 出来之后, 我看到了那个 Twitter 上用 Sora 去做动画 , 我很吃惊 , 就是它完全看不出来任何 AI 的痕迹 , 就是你觉得它就是一个完整的动画 。
然后我说这个太好了吧 。 然后我们当时就说要不先接 Sora, 然后我们看看效果怎么样 。 结果接完之后特别好 , 就是我们第一个视频出来 ,是我们研发做的一个视频 , 我当时都特别兴奋 。
它做了一个是一个小螃蟹和一个小猩猩在那打篮球 , 然后非常完整的一个片子 。 然后我当时就哇 , 我的第一印象是不会这事真的让我们做成了吧 。
对 , 就是非常兴奋 。
所以那个时候那个螃蟹和海星打篮球 , 它是一句直出吗 ?
一句直出 。
所以这中间也没有像原来那样还要去调首尾帧等等这些中间的过程 ?
其实我们前面的那个首尾帧也是自己出的 。
也是一句直出 。
对 , 对 , 对 , 了解 。 只不过它的生成方式其实是完全不一样的 。 所以 Sora 它的表现力上非常好 ,在于切镜 , 就是镜头镜头之间的切是非常自然的 ,有点很多蒙太奇的这个手法在里头 。
但是它的不好是在于由于它是参考图加文生 , 它的文的那个比重会非常大 , 就是会导致它的一致性啊 , 各个方面可能会没有那么的稳定 。
就它有分镜切镜的这个优势 ,但它同时因为它是文再加多图参考 ,因此它就非常依赖这个文本 ,以及它的一致性没有那么理想 。
对 , 对 , 对 ,因为你看它是参考嘛 , 对吧 ? 所以它不是那一张图硬生生的来生 , 所以它的稳定性通过模型的理解在做 。
所以如果是首尾帧的话 , 它的稳定性好是因为它就是从那一帧开始来推演的 。
那所以 Sora 2 出来之后, 你们的产品做了哪些改变 ?
我们本来是两条链路要同时跑的 , 然后我们做了一个决策 , 就是老链路先不做了 , 全部切到 Sora 2。
因为它虽然有一些问题 ,但是它的效果会非常棒 。 它在动画上应该是训练了很多电影 ,在你生成的时候 , 我们比如说要去做一些二创的时候 , 你会发现那个电影的痕迹非常非常重 , 就是你能看出来它是哪一部电影的痕迹 , 甚至我觉得还是很厉害的 。
超市餐馆12:44
但也有一个说法就是比如说 Sora 2 它今天是这样的 , 那如果到了 Sora 4、Sora 5, 会不会比如像 OiiOii 这样的产品就会被端到端的这个未来的 Sora 给吃掉 ?
不会 , 我反而是会觉得它对于 Agent 类的产品是非常友好的 。 我自己做 Agent 的时候会有一个感觉吧 ,在此之前是没有这种感觉的 , 就是所有的视频的模型 , 首先它不大可能会大一统 , 就是它各有各的特色 ,因为它的数据标注标准的不一样 , 数据的不一样 , 数据质量的不一样 , 它吐出来的东西就是会各有特点 。
各个模型它就犹如各种大型超市或者是那种大型的菜场一样 , 就是它是你的料 。 然后做 Agent 的这一块 ,其实有点像你用的这些料 , 然后再做一个餐馆 , 就是比如说我们现在做的是一家川菜馆 , 那我川菜馆定位的这个人群就是喜欢川菜的 , 喜欢吃辣的这一些人群 , 那我就要挑这些食材到各个这个菜场去挑 。
就是 Sora 2 菜场 。
对 , 对 , 对 , 然后最适合这个人群的这些食料 。 然后但是这里头其实最主要的这个工作是你自己的厨师是不是足够牛 , 比如说里头要调这个味道火候 ,其实我们大量的大概 60%-70% 的工作在调这些很细微 , 这个是你在产品上是看不到的 。
那在这个大模型和 Agent 之间 , 它就犹如这个大型超市和这个餐厅一样 , 就是用户他可以去菜场或者是超市买菜 , 然后他也可以自己做 , 对吧 ?
他也可以去这个餐馆里体验一下, 就是吃个现成的 。 这也会导致其实市面上会有很多的视频的 Agent,因为视频的 Agent 它有点不太一样的是 , 视频的内容它是非常丰富和多彩的 , 每一种内容它的制作方法其实是不一样的 。
所以它可以有川菜馆 , 它也可以有粤菜馆 ,也可以有湘菜馆 ,也可以有火锅 。 所以它可以是一种繁荣的 , 大家一起去把这个小吃街给做起来的这种这种东西 。
它存在一定的竞争 ,但是大家是一起繁荣的状态 。
所以这个比喻特别形象 , 就把这个大模型比成商超 , 然后以 OiiOii 为代表的 Agent 产品就比喻成一个一个的餐馆 。
然后我当然自己可以去超市买菜 , 回来自己手搓一顿饭 , 那我其实也可以直接下馆子 。 那可不可以讲一讲就是你们在做的这个事情里面 ,有哪些是比如说 Sora 2 它其实已经是 N2 的 , 对吧 ?
我也可以一句话也能直出一个这个带分镜的一个动漫出来 。 那 OiiOii 做的事情又有哪些不一样呢 ?
我就拿 MV 来举例吧 , 就是你用相同的 prompt 和相同的图为到 Sora 2 里头 , 它也达不到我们的这个水平 ,是因为我们会把你要输出的一句话 , 比如说让他们几个跳一个 K-pop 来做一个 MV, 然后我们会进行扩写 。其实是我们在市面上就是找了很多这个二次元的 MV 做的比较好的这种视频 , 然后用自己的方法去让模型去学习它 , 然后学习完了以后变成知识
库 , 然后用户在写这个 prompt 的时候 , 我们其实调到这个知识库 , 模型再用它的方式吐出来的 prompt, 然后去搭配它的镜头语言 , 去搭配它的音效生成 , 然后给它意见就出了 。
所以这里头有大量的工作是这个知识库应该如何建立的过程 , 这是一点 。 然后其次再举一个例子就是你比如说我们的很多这个剧情 , 对吧 ?
你剧情我们现在的分镜之间其实还是会有一些断点感的 , 就是大家都说连贯性不好 ,但实际上这是我们的一种选择 。
因为如果你把每个分镜做得特别的连贯 , 它的整个剧情会非常的平 , 它没有那种突然的转折 , 它的这个起伏感就会很弱 。
所以你要在这中间不停的调 , 调到一个合适的状态 。
这就是你说的你开的川菜馆 , 如果我是这个厨师的话 。
对 , 我在用料 。 对 , 对 , 对 。
还有类似的例子吗 ?
有啊 , 我们最近就有一个用料过度的例子 , 就是之前我们的用户反馈说我们的这个场景一致性是不太好的 ,因为 Sora 2 它是一个文非常重的一个模型 , 然后我们在给 Sora 喂东西的时候 ,其实是没有喂场景图在里头 , 只是在这个 prompt 里有场景的描述 , 那它就会导致分镜和分镜之间的出来的场景也许是不一样的 。
那我们的用户其实他是反馈出来了这个问题 , 我们为了让场景一致 , 就是要给他喂场景图 。
所以给他喂了场景图 , 你会发现就是它有点过了 , 就是太一致了 , 太一致会导致整个画面非常的死板 。
就是现在的模型它文生的这种比较好的视频 , 它需要有更好的想象力 。 如果你喂了那张图的话 , 它的这个想象力就会受限制 , 会导致一个什么样的结果呢 ?
场景其实和人物它不能抢了人物 , 它的贴合感是人在要在场景里的 ,但是你给了这张场景图 , 它是场景非常一致了 ,但是它那个贴合感就很像贴片 , 你就感觉哪里好像不太对劲 , 它这个场景会非常的重 。
那这就是导致有点像比喻一下, 就是你的用户说你这是川菜馆 , 你不辣呀 , 然后我们就使劲放辣子 , 然后就说这个又太辣了 。
对 , 对 , 对 , 大概是这种感觉 。
但你会觉得比如说未来如果 Sora 2 把它的这个一致性的问题解决得更好 , 或者说这个比如说 Sora 2 它也开始有了一些就重要的垂直的这种视频领域的一些知识 , 比如说做 MV 或做二次元 MV, 这些还是比较大的品类嘛 , 它未来模型智能再上来之后, 它也能实现了 。
那如果到那个时候 , 就你会担心就是终有一天 , 你还是不担心 ?
我还是拿那个超市来举例子 , 这就好像很多 , 比如说它可能原来就是个纯超市 , 然后现在有这个雾美也好 , 还是这个盒马也好 , 对吧 ?
它里头会有些熟食 , 它就是用超市的料开始做了一些熟食 ,但熟食和餐馆它还是不一样的 , 就是它还是有自己专注的人群和在那个方向上非常专业性的东西在里头 , 这个我觉得它是无法穷尽的 。
那比如说 OiiOii 这家川菜馆 , 你们目前的目标用户是谁啊 ?
用户18:52
我们自己定义的目标用户和我们现在的会有一定的这个准确度啊 ,但也有意外 。 我们之前做过离谱是完全 UGC 的 , 对吧 ?
然后现在我们在出来之后会想这个切入口到底在哪的时候 , 当时就会有一些这个漫剧的出现了 。
然后我们本来是想切漫剧这个赛道 ,但是你看漫剧的赛道它其实还没有 ready 好 。 第一是就是漫剧它是比较考验剧本的 , 这个在模型和我们这个团队里头其实是并不是非常有优势的 。
然后第二是漫剧它还是一个非常头流的生意 。 第三点是漫剧它其实是在一个成熟的工作流里头的效率优化 , 就是它还是非常依赖于人的 ,但我们其实是不想做非常依赖于人力的事情 。
所以这三点都会导致它并不适合我们现在的团队 。 所以我们再往回推 , 当初为什么不做跟离谱相似的 UGC 的东西 ?
如果漫剧是 PGC 再往上一点的这个人群 , 然后离谱是非常 UGC 的这个人群 , 那为什么不做 UGC? 我觉得 UGC 它还是没到时候 , 就是 UGC 它做出来的内容的消费属性太短和这个信息量不足 ,但是我们现在的这个时代它已经和之前是不一样的 , 就是现在大家消费的内容的信息量已经非常大了 。
所以这种消费的非常有限的信息 , 它不足以去支撑得了一个大型的 APP 给转起来 。 这是第一点 。 然后第二点是 UGC 你就要有很大的用户的体量 , 然后首先它的投入成本比较高 , 然后其次它的推理成本也比较高 。
所以这两点都决定了内容社区产品它很难去发展得非常大 。 这也是为什么不做 UGC,也暂时不做漫剧这个赛道 。
然后那我们再中间推 , 看什么样的人适合我们 , 我们想做的是那些自媒体人, 就是他是一个人或者很小的这个工作室 ,他做的内容适合用动画来呈现 。
那这群人里头可能分成两类 , 一类是本身他就是在做动画的 , 那本身在做动画的人里头有很多是以一个 IP 为出发点 , 然后不停的在做这个 IP。
那我们的一个功能就是他可以做一个 IP 角色 , 然后反复的做很多集 。 那我们调研了以后会发现 , 这个自媒体的人里头大概两三个人, 一个小的工作室一周更新一集 , 然后这是他现在的频率 。
那用我们的话 , 基本上一天可以更新 10 集 , 如果他精挑细选的话 , 一天更新一到两集完全没问题 。
所以他的效率是非常大的一个提升 。 那这是一个人群 。 第二个人群是你看就是 ACG 里头 ,他还有很多做 MV 类型的 , 所以我们也会有 MV。
第三种类型他还是自媒体 ,但是他不是做动画的 , 很多讲这个历史 , 讲科普的 ,但是他是非常适合用动画这种展示形态来做的 。
只不过以前的动画成本非常高 , 这个人群是我们想切的 。 首先他有做动画的动力 , 那他就愿意去尝试一个新的工具 。
然后第二点是这群人其实并不是一个少数 ,他在其他的自媒体平台上还是有很多的流量红利的 , 所以我们切的是这个人群 。
但在真正去做 OiiOii 的时候 , 我们内测的时间大概是一个月嘛 , 这部分其实用户是 touch 了的 , 就是已经 OK 了的 。
就这些是你们一开始想目标人群 , 现在也是内测的时候反应还不错的人群 。
对的 。
但出现了一些没想到的人群 。
出现了一些没想到的人群 , 这群人分成两类 , 一类是真的要做一些视频给消费大众的人啊 , 比如说漫剧的人他就找过来了 。
我们以为我们的东西其实是满足不了漫剧的 ,因为现在我们没有针对漫剧去开发一些特殊的 , 比如说剧本上传啊这些能力 。
但是他们试用的反馈比较好的点是 ,他们其实不用那么强的最后成片的那个能力 ,他们只要那个分镜能够对得上, 然后把所有分镜下载下来自己剪就够了 。他们就觉得这个分镜的效率非常高 。
这是一群人, 这个是在我们的未来的打算里 ,不是现阶段的 ,但现在好像也可以满足一部分的人。 然后第二类人是他完全没有做过视频的人, 然后他不爱出镜 , 然后他很想把他的一些状态用动画的方式来展现出来 ,因为动画它是一个很容易去表达精神世界的一个载体 , 这种是 C 端用户 ,但他不是原来的自媒体人。
然后第三种就是刚才说到的 ,他可能不是为了给大众看的 ,他是为了给自己的社交关系看的 , 比如说家长给孩子 , 学生给老师 , 然后情侣之间 , 然后还有养宠物之间 , 给自己宠物做的 。
给自己宠物看 ?
不 ,不 ,不 ,不给自己宠物看 , 给自己宠物做自己看 , 然后或者给朋友分享的 , 还有成年人给爸爸妈妈做的 , 这些都是一些社交关系 ,也是我们现在初始没有想到 ,但是现在会有一些的 。
那再往前做呢 ? 刚才提到的这么多的用户 , 你会做一些减法吗 ? 还是你想要这个服务所有人 ?
我觉得是这样子的 , 我可能往后做的时候 , 我们会有点类似于当时抖音做垂类的这种思维 , 比如说想做 Coplay 的时候 , 我们就去找这个 Coplay 的 up 主 , 然后我们看所有 Coplay 的用动画呈现的这个视频 , 它的整个结构是怎样子的 , 把它变成知识库 , 然后再服务好他们 。
因为现在还是没有服务好他们的 , 只不过他们在用而已 , 就是一步一步 ,他通过每一个垂类 , 我们一点一点的去啃下来 。
只不过现在他们是有苗头 , 然后我们可能给他们排个序 , 然后一个一个一个去供 。
OK, 所以其实还是想要这个把这些人都服务好 。
架构24:12
对 , 这是终极 。
其实就像今天一开始你提到玛雅 , 会觉得超级复杂 ,其实今天也会有一些用户认为剪映很复杂 , 你会担心比如说 OiiOii 有一天也变得很复杂吗 ?
这就是我觉得 Agent 是一个非常好的载体的原因 , 就是以前的所有的创作工具 , 它都会有这种从简单到臃肿 , 然后再被一个简单的替代的这个过程 。
我举个例子 , 你比如说在这个设计行业 , 对吧 ? 原来 PS, 然后 Sketch, 然后 Figma, 然后可能现在是其他的 , 那这就是一个用非常简单的 GUI 来替代掉原来更臃肿的这个过程 。在剪辑里头也是这样 ,PR、Final Cut, 然后剪映 , 它也是这个过程 ,但是他们的核心是没有变的 , 核心就是功能在往上堆 , 然后逐渐的臃肿 。
目前我感觉 Agent 它可能会有功能往上叠的这一面 ,但它不会太臃肿 ,是因为它的很多东西藏在里头 , 它不是那种用 GUI 的方式来展示的 。
我觉得这个是 Agent 非常有魅力的点 , 就是它是用户和这个产品在共建的过程 , 就是如果用户他有这种探索能力 ,他会发现他能用这个工具 , 能用到我们都不知道有这些功能的情况 。
用户用 OiiOii 都会用到你们都不知道 。
对 , 对 , 对 , 就是我们现在的很多不足 ,其实是用户他在想办法再解决 , 然后有很多方法 。 这就是为什么我觉得 Agent 的产品特别有魅力的地方 , 就是它其实不是一个死的东西 , 它是可以用户去不断的探索它的边界 , 然后变得丰富的过程 。其实 Agent 的这种灵活 ,但它也有一个负面的一个作用 , 就是它没有那么可控 。
像传统的这个剪映 、Final Cut 是可控的 , 或者说 Workflow 其实它也是可控的 ,但是用户肯定是既要又要嘛 , 又要可控 , 然后又要高效灵活 。
你们在做 OiiOii 的过程中去怎么平衡这两点 ? 这个是个非常好的问题 。其实现在主流的 Agent 它就是两类 , 一类是自由度非常高的 ,以原模型为主的 , 然后一类是像跟班这种以 Workflow 稳定性为主的 , 它既要有这个流水线的稳定性 , 它又要有你要对每一个流水线上的每个 Agent 要进行自由对话的这个过程 。
那这对于我们的架构的设计会要求非常高 。 我们其实在短短两个月里头有四次架构的迭代 。
两个月重构了四次架构 。
对 , 第一次就是用 Sysprompt 来做各种 Agent, 然后来定义它 , 然后让它自己判断做 Workflow 的这个过程 ,但是它非常的不可控 , 就是模型它不听话嘛 , 它有时候你要让它交给谁谁谁 , 它就不交 , 所以这个就自由度太高了 。
然后第二种就是严格的 Workflow,但是它没有那个修改的这个自由度了 。 然后第三种就是我们要做成在 Workflow 的基础之上, 让它有信号 , 它能知道这个时候它要出来了 , 从 Workflow 一跳出来 , 然后它要修改 , 修改完以后再有信号让它再进去 。
这是第三版 。 然后第四版的话 ,其实就在第三版的基础之上再去强化 。在这个过程里 , 它可能要跳其他的过程 ,有一些自由度 。
但在这个第三和第四里头 ,其实我们现在也是调的过程 , 所以它是一个很容易出现问题的一种架构 。
我们还是要再不断的做它的稳定性 ,因为你看现在用户碰到的很多问题 , 就是它推不下去了 , 然后或者是怎么又不动了 , 就是它可能跳出来了 , 然后忘记进去了 , 然后要不就是没跳出来 , 一直在往下自己走 , 这种问题就会经常出现 。
剪映27:47
因为之前在做剪映嘛 , 然后现在做 OiiOii, 你会认为 OiiOii 这样的这个视频 Agent, 它会取代掉或者蚕食掉原来剪映的一些市场吗 ?
还是它会带来的是这个增量市场 ?
我觉得它会带来的是增量市场 。 我举个例子 , 比如说剪映它其实就是分成两个部分的 , 一部分是非常工具性的前面那一段的轨道 , 然后还有一部分是模板的整个生态 。
它的前一部分其实是具备有一定的替代属性 , 就其他的可能剪辑工具啊之类的 , 它也是这样子的 。
大家都有 。
对 , 大家都是可以有的 。 然后但是后一部分呢 , 它后面嫁接的是整个抖音的生态 , 然后这一部分其实是只有剪映它独有的 , 所以它具备有一定的不可替代性 。
它不仅仅是工具 , 它是为了这个形态的内容而产生的一个工具 。OiiOii 它其实有点类似于这个部分 , 比如说它要做一些 MV, 对吧 ?
做一些科普 ,其实它是有点像做垂类的知识库的 , 所以它其实在交付的是我们想要它交付的那一类内容 。
它嫁接的是一个内容类型 , 你用其他的工具是很难一键去产生这样子的一个内容的 。 所以在这块其实它具备有一定的就独特性吧 , 所以它不完全是一个剪辑的过程 。
但是呢 , 这些内容它又可以用剪辑的方式去 , 比如说用到剪辑工具里头去进行合成 , 这个没有问题 。
所以我觉得它是一个增量市场吧 。
就是有可能用户在 OiiOii 里面生成的这些内容 , 它之后还会再回到剪映去做后期的编辑 。
这个基本上都是这样子的 ,因为我们现在更重视的是前半段 ,因为剪辑工具它已经比较成熟了 , 它做好比较难 , 所以大量的精力如果花在剪辑工具上是感觉有点得不偿失 。其实今天有很多人创业是想要做所谓的这个 Cursor for 剪映 , 或者 Cursor for 视频编辑 , 你怎么看 ?
其实在 Sora 出来之前啊 , 就是我们会看到很多的这个视频的生成 , 它都是在一个单分镜的情况下的镜头语言会比较好 ,但是它切镜还是不够的 。
当它切镜不够的情况下 ,其实剪辑是发挥出来了很大的作用 , 比如说剪辑各个这个片段之间 , 它要有过渡 , 这种特效也好 , 动画也好 , 然后这些能力它都是剪辑能力 。
我在 Sora 出之前的感觉是这些东西是很难被替代的 , 然后也在想用 AI 的方式来做这些特效 。 这个特效不是指说 Pixverse 的那种特效啊 , 就是一个东西变成什么 ,不是这种 , 它是指剪辑里头的一些特效 。
但是 Sora 2 出来之后, 我会发现我们现在就在尝试去做这些东西 , 它完全是可以被替代掉的 。 所以在原来的判断里头 , 这一层被拿掉了 。
那是不是完全替代剪辑 , 我觉得也不是 ,但是剪辑的重度会大大降低 , 反而会是一些轻量的剪辑能力 , 它不可取代 , 比如说前后要截断一些啊 , 或者是配上 TTS, 当然那个模型也可以了 ,但模型和模型之间 , 你如果是一个 Agent, 它调用的 TTS 肯定是不一样的 。
所以最好是在最后来合成它这个 TTS。 所以这时候一些基础的简单的剪辑反而不容易替代 , 然后但是有一些复杂的反而会直接用模型给替代掉 。
这个我确实没有想到是这样的一个 ,但这个细想起来好像也挺 make sense 的 。
对 , 对 , 对 ,是 。 因为他在学习这个视频的时候 ,其实有大量的剪辑的手段他已经含在里头了 , 所以他很可能把剪辑的很多重度的工作可以解决了 。
你想表达的是 ,其实今天这个剪辑工具不太可能被完全的取代掉 ,因为比如说我就剪一个后面的 , 比如 0.1 秒我给它删掉 , 这个我完全没有必要 , 就用一句话告诉大家 。
对 , 完全没有必要 , 反而你就拖一下不就完了吗 ?
是的 ,以及如果我要这个排一些前后顺序 , 还有一些什么样的例子呢 ?
就是比如说一些很简单的这种剪辑的功能 ,是没有必要用其他更复杂的方式来替代掉的 ,因为它足够简单 , 反而是一些重复杂的剪辑的能力 , 比如说要加一些转场啊 , 然后要搞一些什么特效啊 , 反而它是容易被模型给替代掉的 。
所以有可能大家还是同时会用剪映 , 只是之前可能我剪一个片子要用 3 个小时剪映 , 现在可能会变成用 30 分钟剪映 。
对 , 对 , 对 ,是这个意思 。 它就是效率上是两者叠加是最优解 。
然后 OiiOii 也有一个很有意思的设计 , 就是你们刚才提到多个 Agent, 然后你们的 Agent 每一个都有自己的名字 , 然后在这个工作的过程当中, 我也有注意到就会 , 比如说这个剧本 Agent 去召唤出角色设计 Agent, 就像邀请大家加入群聊一样 。
对 , 对 , 对 。
这个设计可不可以稍微展开讲一讲 ?
这个设计是 , 可能我最初就是想要有一个 team 在服务于导演这个角色吧 ,因为产品经理他和导演这个角色是非常接近的 , 然后那就是要赋予每个 Agent 他有自己的角色的这种感受 。
那每个角色他又有 Workflow 嘛 , 刚才提到的 ,其实让他加入群聊就是一个 Workflow 的过程 。 我只是觉得这样子第一是很好玩 , 然后第二是感觉他又可以做很多东西 , 所以我觉得他是合理的 , 所以我们就这样做了 。
但这里头就会遇到也是有这个多 Agent 之间交互 , 上下文记忆力 , 它又是一个双层关系 , 我们看出来的就是这七个 Agent,但实际上它底下可能会有其他的看不见的 Agent 助理在干活 。
对 , 对 , 对 , 所以也是在架构上相对来说比较难一点的 。
现在 OiiOii 做出来的这个视频效果其实还蛮好的嘛 。 那除了刚才讲到的就是各种你们做的一些优化之外, 还有哪些原因是目前这个川菜馆做出来的菜很好吃的原因 ?
我再举个例子 , 就比如说我们在最开始的时候 ,其实是想怎么样普通的用户才能做出来一个有感觉的片子 。
那这个感觉其实来自于这是我们一个产品给我的一个提醒 , 就是说它非常的悲伤 , 它非常的欢乐 , 它非常的治愈 。
当他说了这些词的时候 ,其实是一个一个的情绪词 。 我说那作为普通人 ,他其实不会镜头语言 , 比如说你要选择一个叫孤独的情绪 , 那怎么样才能把这个孤独的这个情绪用镜头语言 , 用构图 , 用很多画面元素来表现出来 ,是我们做了很多的工作 。
比如说他的孤独有什么长长的走廊 , 对吧 ? 然后他的色调就是灰白色的色调 , 那这些我们都会做各种排列组合放进去 。
所以它综合来看 , 它虽然只是一个情绪 ,但它背后有大量的关于这个情绪围绕着的各种影视学的专业知识 , 然后你出来那个片子才有那个味道 。
就想起朱自清的背影 , 就是他表达这个父亲的落寞以及对他的关心 , 就是那一个在铁轨旁边拎着一个塑料袋的橘子的这个父亲的一个形象 。
对 , 对 , 对 ,他其实是有一些理性的要素去表达感性的东西 , 这个是我们需要去做好的部分 。
那有时候也有一些艺术家的神来之笔 , 把其朱自清描述这个场景就和别人不一样 ,但他又那么的细腻 , 然后又有冲击力 。
这个就靠创作者了 。 对 , 我觉得我们可以去学习很多 , 比如说我们在里头还可以响应各种电影的大导演啊 , 然后你输入导演名 , 然后再加一个图片 ,他就可以出来那个导演味道的东西 ,其实他是可以学习的 ,但是不是有你的东西你可以加在里头 。
但我们现在的自由度确实还不太好 , 所以还是有一些高级的创作者是非常非常厉害的 , 就是做出来东西我说这是用我们做的吗 ?
感觉我无法相信 ,但是确实是 ,他们就会用 。
现在毕竟才一个月嘛 , 应该还有非常多的想法还没有做进去 。
对 , 对 , 对 ,是的 ,是的 ,是的 。
OK, 我们来聊聊产品经理这个话题哈 。 我觉得闹闹是少有的 , 又在微信体系 , 又在抖音体系 , 就这两个这个中国最厉害的这个产品的体系里面都工作过的人 ,而且都是非常重要的岗位 。
左脑右脑35:28
可不可以讲一讲 , 就首先在这两个体系里面分别做产品经理的感受 ,有什么相同不同 ?
好的 , 好的 。 微信其实不是最重要的岗位啊 , 我其实当时是在做 QQ 邮箱 ,但是是非常早期 。 我觉得当时可以做成有点像是产品经理的很初级的那个阶段 , 就是它对我的最大的影响是它培养出来了我非常深刻的产品的价值观 。
产品的价值观 ?
对 , 对 , 对 , 就是让我看到了很厉害的 , 我们叫龙神 , 对吧 ?
对 。
对 , 对 , 对 , 然后它在很多很深入的对人性的思考上, 然后思考的东西它能嫁接在自己的产品上, 我觉得这是非常厉害的一个功力 。
举一个例子吧 , 就它对人性的思考如何嫁接到比如说 QQ 邮箱这样的一个如此感觉中性的 、 没有性格 、 没有什么人性色彩的产品上的 。
QQ 邮箱有点难举例啊 , 我突然想到就是我们当时每更新一个版本的时候 , 一定要做一个这个版本的语言 , 然后我记得当时做微信的时候 , 小红说我所说的都是错的嘛 , 然后搭配了一个 Mac Jason 的一个图 , 然后其实这是看起来是一个非常简单的东西 ,但实际上我们是知道它背后其实隐藏了很多自己原来的一些思考 , 它最终表达出来的一种广告语 ,
你是能够感觉到它是一个非常有力量的语言 。
对 。
就是一个产品它的力量可能在某些很细微的地方 , 它能凸显出那种力量感 , 我觉得这就是让我非常感动的地方 。
我觉得它真的有一些神来之笔 。
对 , 对 , 对 。
我记得有个版本是发小游戏 , 那个跳盒子还是什么 ?
跳箱子吧 。
跳箱子 。
对 , 对 , 对 。
就这是完全想不到就是微信会搞一个跳箱子 ,但又如此的魔性大家都在用 。
对 , 对 , 对 ,其实当时有很多这种故事了 。
刚才我们在聊这个微信体系和抖音体系的相同不同 , 一个是你觉得在微信体系感觉到产品价值观 。
当时是因为我们每天其实都要过用户的反馈 。
每天 ?
每天要 , 我已经记不清了 , 应该是一天 100 多条还是 1000 多条 , 我已经忘记了 , 然后会要去给用户进行反馈 , 就是非常注重用户反馈 , 这个是自始至终我觉得对我影响都非常大的 。
而且要在一些反馈里要识别哪些是真需求 , 哪些是假需求 ,因为大家有时候喊特别多的未必是真的 。
张小龙在产品公开课的就是非常前面的部分就有讲说如何识别一个需求是真需求还是假需求 , 然后他当时讲的就是说办法就是泡到用户的这个反馈里面去 , 就是看看用户到底在说什么 ,不要在这里自己会议室里面大家 battle 这是真需求还是假需求 。
对的 , 对的 , 就是有时候我们把自己看得太重要的时候就会很盲目嘛 , 所以还是要看真正的那个产品大家用户的里头 , 第一是要看他反馈什么 , 第二还是要看他真实的行为是什么 。
而且第三个点我觉得非常重要就是用户体验 , 它是一种训练出来的直觉 ,但是这个直觉也是因为长期的跟用户之间的反馈 ,有点像大模型一样 , 它不断地在强化而做出来一个直觉 。
但是在抖音的这个体系里头呢 , 它非常注重的是数据 , 我开始会有些不适应 ,因为数据非常好并不代表它的体验是最佳的 , 所以有时候你会发现把一个按钮变得很大 , 对吧 ?
那它肯定数据好了 ,但它并不代表说这个是非常适合用户体验的 。 我刚开始还是有一点抵触这种纯粹与数据导向为主的这种产品体系 。
你是刚加入字节的时候就在做剪映的产品 1 号位吗 ?
没有 ,是在做特效 , 然后后来是剪映 , 然后后来在抖音也做过一阵子 。在剪映的时候反而很好 ,因为它是一个更产品体验感更强的一个组织 , 特效的时候就会慢慢体会到了数据的力量 。
我举个例子 , 你要做这个投稿率 , 对吧 ? 然后这个投稿率它其实有很多的策略来做 , 这时候我才懂我什么叫策略产品 , 就是很有意思 。
什么叫策略产品 ?
你比如说我们要通过各种用户的行为来判断他使用这个功能的概率是最高的 , 你比如说他经常打开特效 , 或者他经常看特效类的视频 , 或者是他哪怕有一次点那个下面那个转盘 , 然后或者是点过收藏 , 就是他的各种行为来测算一个概率 , 它是可能性更高的 ,因为特效是非常跟风模仿的 , 就你要把这个风先造起来 , 那你要造给谁 , 一定
要先造给这个大概率会用到的这批人。 当你懂了它的原理以后, 你会发现原来的产品的这种 sense 和数据是可以完美结合在一起的 , 就是它是一个逻辑推演的过程 , 它不完全是数据 , 它是一个冰冷的东西 , 它其实是有很多用户的行为在反馈在里头 ,而且它可能会比用户的反馈的声音更真实 ,因为它是实际的动作 , 然后你要会解读这些数据 ,也
会去利用这些数据才能做好一些事情 。
还挺有意思的 。
对 , 对 , 对 , 挺有意思 。 所以有点像是一个非常右脑和一个非常左脑的这个各个组织 ,但是实际上它对于 AI 这个产品我觉得也很有帮助 ,是因为 AI 它其实所有的产品它没有那么大的数据量来给你去做判断 , 所以你既要有之前对于产品感觉 sense 的这个判断力 , 这是微信这个层面所培养的 。
然后但是呢 , 模型东西呢 , 刚才说到那些搭配啊之类的 , 它其实不是用户数据的一种策略 ,而是各个模型之间的各种策略 ,其实它的这种理性的思维也会在里头 , 就像动画它就是一个艺术和技术 , 就这两个东西它都会融合得比较好的一个形态吧 。
确实很有趣的比喻啊 , 就是做产品好像在字节和在微信是一个右脑一个左脑 ,但最后都做出了这个中国最厉害的产品 。
那它们又有哪些相同呢 ?
我觉得它的相同就是把自己的优势发挥到极致 。
把自己的优势发挥到极致 。
对 , 你比如说字节它其实是以非常注重数据科学的 , 然后它的推荐引擎和增长体系 , 这就是它的优势 ,是非常极致的 。在微信 , 当然时间比较久远了啊 , 我还是觉得对用户的理解和认知是非常非常深刻的 , 它甚至深刻到它不是表面的那种需求 , 它是深刻到人性的这个很多东西它浮上来 , 它应该是一个什么样的体验 , 所以它把这
个优势发挥到了极致 。
就像当时谁也没有想到微信的 slogan 是 " 微信是一种生活方式 "。
对 , 对 , 对 。
这个很有意思 。
对 , 甚至你比如说很多人说这个 , 比如说在微信里如果工作过的话 , 体会到的是所有的决策 , 当然是那时候啊 , 可能是小龙在做决策 , 然后其实我觉得他不是一个非常闭塞和固执的人, 就是所有的决策是他在做 ,其实是因为很多人提的这个建议 ,他都在自己的想法中已经想过了 ,他是一种开放的状态去听 ,但是最后最终决策他是在所有的听的基础之
上去做收敛 ,但往往他想的比别人要更深 。 然后在字节这边呢 ,其实你会看到的是他更相信一个科学的决策 ,他是相信组织或者是相信这套引擎的决策 。
还是很不一样的 。
对 ,是不太一样 。
但我觉得你的答案是我觉得还蛮有意思的 , 就是大家都是意识到自己的优势在哪里 , 然后把这个优势放到最大 。
对 ,是的 ,是的 。 我觉得有点像创业公司一样嘛 , 就是没有一个模式说必定哪一种创业一定会成的 , 就是任何创始人他有自己的性格和个性 ,他可能知道自己的优势和长处 , 然后把自己这个方向发挥到极致 ,也许他就可以做一个比较有节奏感或者长期的事情 。
那你认为 OiiOii 这家创业公司的优势相较于这个大家来讲是什么 ?
我觉得首先第一点就是 , 我是从一个第三者的角度来看我自己这个人 ,他很重要 ,他和这个初始的团队的基因也很重要 。
首先要对动画和技术这件事情是非常的了解和非常的相信 , 如果这个东西没有的话 , 它后面的都不存在 。
那为什么一定要这样 ? 是因为我觉得商业领域里头有很多的事情不一定是这个事情很纯粹它就能取得商业的成功 ,但是在动画这个领域里头 , 我们看到的你比如说迪士尼 、 皮克斯 , 包括像中国的这个土豆那个王威 、 追光 , 它也是经历了很多 , 像饺子 ,其实饺子在没做这些之前 , 很久之前就看过它很早之前做的那个东西 , 都是经历了很
多挫败 , 然后他坚持到了这个事情 ,他也取得了很好的商业成功 。 你会发现在动画这个领域里头 , 它是少数的在商业世界会奖励到很纯粹 , 会奖励到热爱的这个行业 , 所以它比较适合我 。
所以总结一下就是你会认为你作为创业者身上有一个比较大的优势在于 ?
第一是这件事情对我来说已经是很久很久的事情了 , 它不是一个一拍脑袋 , 然后说有 AI 我就去做什么 , 对吧 ?
它是一个我一直在想做的一个东西 , 它突然在 AI 的时候有了机会能做得更好 。 然后第二个是刚好我现在的能力吧 , 就是经历过了很多公司 , 然后也自己创过业 , 然后某种程度上我觉得具备了一定的能力准备好去做这件事情 , 然后团队的能力也是非常匹配到 , 就是既有信念又有能力 , 那就去干吧 。
我觉得很多时候其实你经历了很多公司 , 你也会发现好像专注在这一个赛道的长期的有能力的人其实是不多的 。
你觉得做一个好的产品经理最重要的事情有哪些 ?
我觉得第一个点是要具备有一定的移情的能力 。
移情 ? 移情和共情是一样的吗 ?
我先讲一下移情吧 。
好 。
对 , 移情就是你能迅速地切换到自己不是你自己 , 你能迅速 , 比如说我在这个行业可能相对来说有很多经验 , 对吧 ?
你觉得自己很有经验 ,但你要瞬间切换到一个你完全是一个小白的状态 , 这个我觉得是一个移情的能力 。
那怎么培养这种能力 ? 是因为你要常常地把自己不要当自己 , 要抽身出来去做一个观察者 , 你要观察你自己 , 然后也要观察身边的用户 , 这是第一个 。
然后第二个我觉得是 50% 的自信和 50% 的自省吧 。
50% 的自信和 50% 的自省 。
对 , 对 , 对 。 如果只有自信而没有自省的话 , 自信是很容易变成一种自负的 , 就像阴和阳一样 , 让你在自信的时候很冷静地看到自己不足的那一点 , 然后但是这个不足又不足以导致他的自卑 ,而是说我要加强这个自信 , 所以是用自省来加强自信 。
我觉得这个会让你的自我感没有那么强 , 自我感很强的话就会导致有很多盲区 , 这个盲区对于产品经理我觉得是非常致命的 ,是因为你就不具备了那种移情的能力了 。
一个是移情 , 一个是这个 50% 的自信和 50% 的自省 。
对 。
还有吗 ? 做好产品经理很好的事情 。
还有就是对技术敏感吧 , 你可能不会写代码 , 我就不会写代码 ,但是你必须要有很好的对技术的理解 , 你才能知道说什么样的技术能实现什么样的东西 , 我觉得这个是一个基本功 。
还有吗 ?
没了 。
就你刚才说到第一点就是移情的时候 , 我想到马化腾之前说把自己一秒变小白用户的这种超能力 。
对 。
我觉得其实在 AI 时代创业可能对于技术的敏感程度变得更加重要了吧 。
是的 ,是的 。
并不是说过去不重要 ,而是今天可能变得更加重要了 。
是的 ,是的 。 因为 AI 它本身就是一个技术革命嘛 。
你怎么保持自己对技术的敏感 ?
我好像没有刻意保持 , 它就是敏感的 , 就跟直觉一样 , 它是一个慢慢叠加的一个过程 , 就是你在哪方面非常感兴趣 , 一直在关注 , 它的敏感度就会越来越高 。
你比如我小时候就是对视觉 、 听觉比较敏感 , 这是感性上的 , 然后其次我很喜欢物理 , 那对于规则是非常敏感的 , 那这些东西都会导致我对于多模的技术 , 刚好是一个视听语言的技术 , 它是有规律的 , 就是我最擅长的那一部分 , 所以它就会敏感 。
那你感觉现在很幸运啊 , 就是你小时候感兴趣的事情 , 然后在年轻的时候一度想做的事情 , 现在就可以做了 。
对 ,是的 ,是的 。 这个是我这一次创业非常非常强烈的一个感觉 , 就是真的非常幸运 , 就是过去可能会走过看似是一些弯路 ,但实际上都不是弯路 , 每一步好像都在为这一次创业做准备的这个感觉 。
就好像这是乔布斯的那个金句 , 对吧 ? 把过去的所有的点都连成了一条线 。
对 , 对 , 对 。其实之前也没有刻意去这样安排 ,但是你会发现这一次就是天时这个来了 , 我自己的这个能力也好 , 还是这个爱好也好 , 还是敏感度也好 , 都匹配上我要做这件事情 , 就一切都刚刚好 。
真好 。
就很幸运 。
那怎么想到要给这次创业叫 OiiOii 这个名字的 ? 这个名字也很特别 。
其实之前的几轮都没有这个名字 , 然后后来是我们有一个技术 ,因为 Oii 这个是一个有点像二次元给人打招呼的那个 , 就是很亲切很可爱 , 然后他就说要加一个这个 , 然后我说那挺好的啊 , 那我们是不是就叫 Oii, 然后叫 OiiOii 是因为它是两声 , 然后就是更可爱一点 ,double。
然后第二个是它很像两只小蜗牛 , 就是我们很希望自己是那种就是很踏实的 , 小蜗牛一样慢慢爬 ,但是很可爱 , 这种感觉 。
这个挺有意思的 。 我一开始有理解到 OiiOii 这个就是名字念起来朗朗上口 ,有点二次元 , 打招呼很有热情 ,但我没想到它还有一个象形文字的这个含义 。
对 , 这也是为什么是一个 O 两个 I, 就是更像蜗牛一些 。
我看你朋友圈曾经分享过一句话 , 那句话是这么说的 :" 就将隐形的愿力显化到产品上是密集 , 掌握着寥寥无几 , 要更精纯还远远不够 。"
当时你写这句话的时候是被什么故事 , 被什么产品或者被什么人触动到了 ?
其实当时是准备离开离谱 , 然后做新的东西 , 我们还没有想好新的东西 ,其实就是放弃离谱这件事情对我来说是有点难的 ,因为某种程度上它其实就是我想要做动画的那个起点 , 所以放弃它或者是抛弃它对我来说可能没有那么容易 ,但这个场景下我会觉得在做离谱的时候 ,有很多东西是我不可掌控的 , 然后它也夹杂了很多其他的有点像
杂志一样的这种力量在里头 。 我是觉得好 , 那我们这一次创业 , 我当时也没有找到很好的切入口 ,但我一定要做动画这件事情很确定的 , 那可以在新的里头去尝试用只有我来主导的这个力量去做更精纯的这件事情 。
希望这个愿力更多是来自来自纯粹的自己 。
对 , 对 , 对 。 然后或者是我来选择的这个团队本身 。
在同样的那一篇分享里面 , 你还写了另外一句话 , 就是要允许冲突 , 甚至要去制造冲突 ,因为冲突是做事的力量 ,是筛选做事的人的方式 。
冲突50:26
可不可以分享一个就是在过去冲突它成为了力量的 , 你经历过的这样的故事 ?
其实很多 。 首先我是一个非常喜欢竞技体育的人, 就是我很喜欢打篮球 , 然后在这个里头你会发现你的对手往往会激发出你的很多潜力或者是能力 。
小宇宙 。
对 , 对 , 对 。 然后很多时候我觉得一个良性的竞争是互相去欣赏和互相去激发的一个过程 。 那在工作的里头其实很少遇到这样子的状态 ,因为往往你在起冲突的时候可能就是一些攻击的这种状态了 ,但是呢 ,在这个攻击的里头 , 我们是遇到过一些不打不相识的这种队友的 。
我举个例子 , 可能在比如说很多时候啊 。
预言幼稚 。
对 。
你可以说 , 然后我们给你逼的 。
就是比如说在自己的时候吧 , 然后我们其实在做特效这个模块上的时候 ,有很多个团队都想做这块的业务 , 然后后来是那由我们做了 ,其实就会和其他的团队会产生一些这个冲突 ,但是呢 ,由于大家一起打过一些仗 , 然后发现还不错 , 然后就是由这个对手转变成了队友 , 就是因为在那个环境下大家都是以事为先 , 然后反而会激起了大家互
相欣赏和互相就是佩服的这个过程 。 包括我第一次创业的时候也是一样 , 就是我第一个开掉的人是我的好朋友 ,是因为他当时的很多这个状态已经跟不上这个团队了 , 然后我当时在跟他说的时候就把我骂得狗血淋头 , 然后后来他出去之后就也在拉我们小伙伴 , 然后去做同样的事情 。
但是呢 ,在一年之后, 然后他就加回我的微信说 :" 我终于理解你了 。" 然后因为他自己去做这件事情的时候 ,他的角色已经不一样了 , 然后他就体验到了我们当时的那种这个 ,因为他不在我的这个角色上, 所以他没有办法去体验我的角度 。
那他体验了之后就会发现原来确实是有一些 , 所以我在这个里头其实是得到了一些正向反馈 , 这个正向反馈是指说当时的冲突可能会造成一些误解或者是不好的这种印象 ,但它不是长期的 , 只要你的心态不是真的害人, 终归时间会证明一切 。
有时候这种冲突反而会更加的能激发出来彼此之间的那个做事的态度 , 所以我就当时就写了这个 。
大家都叫你闹爷 ,是因为什么呢 ?
首先叫闹闹 , 然后又很像男孩子就叫闹爷了 。
因为你今天给我的感觉是非常 peaceful 的 , 就是和闹闹这两个字好像没有什么关系 , 这是因为你过去是很闹嘛 ,是最近才 peaceful 下来的吗 ?
不是 ,不是 。 过去是很闹 , 然后过去是一个非常 e 的小孩 。 我觉得是在可能十多年前吧 ,也是上次创业经历了一些起伏吧 , 然后包括可能家里也经历了一些事情 , 然后让我更 peace 了一些 , 然后这个 peace 我觉得是一个更大的力量 , 它不是说就是闹 , 是一种力量 ,因为也是接触到了一些这个尝到了这个 peace 的甜头 。
比如说什么样的甜头 ?
你看我原来做过极限运动 , 对吧 ?
对 。
然后其实我初中的时候还组过乐队 , 还是搞摇滚的 , 就内心里其实是一个非常叛逆和有那种力量的 。
反骨 。
对 , 对 , 对 。 但是这种力量呢 , 你会发现它是外放的 , 它是在呐喊的 , 它是在叛逆和反抗的 , 某种程度上它其实在外界寻求一种高度自由 , 就是摇滚精神 , 高度自由 。
但实际上你会发现 , 无论你在外界如何的寻找 , 它都是一种不满足的状态 , 它是没有找到那种自由感 , 反而你在消耗自己和给自己的一个巨大的牢笼 。
但是有机会去让你审视自己内心的时候 , 你会发现原来所谓的自由在这里 , 就是你以为它很小 ,但其实它是非常非常广大的 , 然后你会发现了有一种能量 , 它不是那么用力的 ,而是一种细水长流 , 反而会非常的大 , 这个大不是说用力的大 ,而是很广阔 , 然后你反而去找到了一种自由感 。
大家会觉得它反差很大 ,其实在我看来一点都不大 , 它就是寻找自由的一体两面 , 一开始是在用这个呐喊的方式 , 然后最后其实找到了真正的自由是在自己的内心 。
其实有机会还是蛮希望我们可以有更多的时间去聊 , 就是闹和静之间的变化 ,以及就是如何得到更多的 peaceful, 然后从而产生出力量 。
我是一个对这个话题很感兴趣的人。
可以啊 。
今天时间比较有限 。
好的 , 好的 。
然后那我再问一个就是关于 OiiOii 的问题 , 就是我记得你朋友圈之前发过说你最喜欢没有之一的企业家是 Pixar 的创始人 ,但是他其实是一个过去做工具 ,但是转型最后做动画片 ,并且皮克斯取得最大的成就也是因为他的动画片这样一个人。
皮克斯55:16
那你为什么没有像自己的偶像一样直接做动画片 ?
首先我喜欢他不是因为他做了动画片而喜欢他的 ,而是我觉得他找到了自己的擅长点 ,在动画里的展示到了极致 。
什么意思呢 ? 就是我们下意识觉得学动画的人他可能会画画 , 会讲故事 ,他才能学好动画 ,但其实他在一些纪录片里就讲说他其实小时候是非常喜欢动画的 ,但是呢 ,他画画又画不好 , 然后讲故事又不会讲 ,但是他非常喜欢电脑和物理 , 我也很喜欢物理 。
对 , 然后呢 ,他其实在这条路上慢慢的找到了 , 比如说用图形学的东西做了世界上第一个电脑的一只手吧 ,他是用那个分镜的图形学的东西 。
真的是一个一分钟的一个短片 。
对 , 对 , 对 。 然后呢 ,由此打开了拿电脑去做很多虚拟的图像的这个世界 , 比如说他开始在工业光模吧 , 然后去做了一些特效的东西 , 然后呢 ,他会发现原来他用他自己擅长的电脑和物理学的知识 ,他是可以参与到动画的制作的 , 所以也做了世界上第一部 3D 动画电影 。
这个里头的启发在于我会画画 ,但画得不好 , 然后我想写故事 ,但我也写不好特别好的故事 。 我又不是技术出身 , 我的擅长点是在于我对技术敏感 , 然后知道把它怎么变成一个产品 , 然后我的满足感是在于这个产品大家用了以后激发大家的创意 , 我的满足感是在于这里 。
所以在做 OiiOii 的时候 ,他是用了我最擅长的方式来从事到动画这个行业 , 所以他对我的启发是在这里 。
你希望 OiiOii 之后长成一个什么样子的产品呢 ? 你希望它一直是工具吗 ? 还是你希望它未来比如说也会成为某种内容平台 , 或者成为皮克斯 ?
我当然是希望它在工具的基础之上可能会有更多的可能性 ,但是我不是一个就是希望说把未来说的那么的确定性 , 然后我希望它至少在工具这一层能做到真的我们愿望中每一个想要去做动画的人他能做出来一部动画 , 这个先达到了 , 然后再做其他的可能性 , 然后其他的可能性在我的脑海里它也是有模糊的这个概念和想法的 ,但是我不太愿意把
展望57:50
它说得那么死 , 一旦说得死了它就坍缩成一个实体的东西了 。
在 2026 年, 你认为在 AI 的视频领域有哪些大概率会发生的新的变化 ?
其实我觉得在过去一两年来判断视频模型的趋势上, 大致上其实都是有这个迹象的 , 就比如说它的质量肯定会越来越好 , 然后可编辑性会越来越好 , 这个是在一年前可能都判断对的东西 , 然后接下来可能是在一些实时的时效性上可能会越来越好 , 那时效性上越来越好可能就会进行一些互动性的东西 ,但我也不是特别的觉得那个是一个多么大的革
新 ,是因为它的产生物要看它的受众到底是不是买单 , 比如说编辑的自由度越来越高 , 那就会造成它其实受众是越来越专业的 ,而不是越来越小白了 , 那它的受众其实是在缩小的 , 包括这个实时性越来越高 , 它表示它有一定的互动性 ,但互动性它其实是一种主动的行为 。
我们现在被这个自媒体规训的已经就是 。
就是被动 。
对 , 对 , 对 。
唯一的互动是上滑下滑 。
对 , 对 , 对 。 然后你会发现你只要稍微多一点点互动 , 它的人群就其实是非常窄了 , 所以这是我自己的判断 ,但第二点是我不设限 , 就是我觉得过去在判断上的时候 ,其实在这个里头它又出现了 Sora 2, 就是你看它只是做到了接近听起来没有那么大的这个改动 , 对吧 ?
就是接近和这个非常自然 ,但是它带来的效果就是非常好 。 你看就是现在哪怕没有那么大的革新 , 它不是互动性的 , 它也不是什么可编辑性的 , 它就是你的这个消费属性 , 就是稍微自然一点 , 它也能很好 。
所以也许很多这个判断的巨大的改革并不会对真正的消费人群带来很大的改动 , 反而一些现在的这个媒介的基础上的一些小改动 , 反而会带来可能大的这种受众 。
其实你刚才有提到就你们最早会去把用户的不同的镜头分配给不同的模型去做 ,因为不同的模型擅长不同的东西 。
对 。
那可不可以比如说今天稍微 。
展开一下 。
展开一下, 比如说这个 V 度擅长什么 , 可灵擅长什么 ,blah blah blah。
可以啊 。 你比如说我们当时就给 Touch Agent 会学习一些动画里头如果会有一些打斗的镜头 , 那这些镜头调用的就是海螺 , 然后海螺在打斗上就会比较好一点 , 然后还有一些镜头可能是人物的这个表情啊 , 或者是人物的这个情感细腻一些 , 这个可能 seed 会表现的好一点 , 然后还有一些镜头它表现的是那种 seed 感 , 就是那种特效大片的那种感觉会比较好一
点的话 , 它可灵就会比较好一点 , 就是我们会根据这个镜头里头描述的这个过程给它自动分配 。
据你所知 ,他们也是刻意的在去做自己的差异化吗 ?
我觉得这里头可能跟初始的数据和后面想要做的方向都有关系 , 就是有一个先天 ,有个后天之分 。
你比如说你先天的数据标准非常的不一样 , 然后它出来的东西真的是完全不一样的 , 就是它中间的工序会比较多一点 , 然后人呢 ,他又对视觉是敏感度最高的 , 所以它出来的东西不一样你就会马上的感觉到 , 这是先天的部分 , 然后后天的部分可能是跟各个模型公司的战略有关系 , 比如说我要是做影视级的大片 , 那我肯定要训练很多影
视级的这种素材 , 比如说可灵 , 包括之前的海螺可能都会去往这个方向 , 然后它在不断的过程里头可能在加强自己的某一个环节的时候 , 就会训练那部分的数据 , 那它就会造成这个模型在这个方面就会比较强 。
但是视频模型很难真的大一头 , 你哪怕是模型完全一样 , 它的可调用的手法喂进去的东西不一样 , 它出来的东西也不一样 。
我就举个例子 , 你比如说还是刚才那个例子 , 就是我们之前的都是调 Sora, 对吧 ? 模型是完全一样的 ,但是我们之前的那个场景其实是已知性不强的 , 我们在喂给 Sora 的时候 , 喂的这个元素是没有场景图 , 仅仅是这一个小元素 , 它其实对于这个模型来讲它完全没有变 ,但它喂进去的东西有一点点改变 , 它出来的东西就完全不一样 ,也就是
小改动在模型后面的这一层都会带来大的影响范围 , 更别说模型在前面训练的时候的那个数据的这个维度不一样 , 它可能带来每个模型之间的差异也会非常大 。
哎 ,在 OiiOii 里面用户可以选模型吗 ?
暂时没有 , 我们后面可能会去做这一步 。
OK。
对 , 这个只是我们自己的现在的选择 。
所以你自己会怎么去判断 2026 或者再往后这些不同的这个视频模型厂商他们的竞争 ?
我觉得大家都会往一个是加强自己非常擅长的部分 , 然后其次是补足自己不太擅长的那一部分 , 然后模型厂商它肯定还是更加通用性的这种方式 , 然后就是刚才那两个大的方向吧 , 就是一个是实时性 , 一个是可编辑性可能会增强 , 大概是这样 。
明白 。 好 , 那我们最后一个问题就是如果给你 300 万美金 , 你可以去做天使投资 , 把它分成三份投给三个人, 有可能还没有开始创业 ,有可能还在工作 ,也可能这个已经创业了 ,但是你还想这个追投进去 , 可你想到哪三个人 ?
我其实第一反应想了很多人, 然后呢 , 第二反应是我还是想投给我自己 ,不是因为我觉得自己怎么样 ,而是因为站在一个第三者的角度 , 我最熟悉的是这个人, 就是我觉得首先一个天使投资他要投一个他觉得对这个人非常的白银 , 然后只是我觉得我对我自己是最熟悉的那一个 。
那我们最后来一个彩蛋环节啊 , 就是请闹闹用 10 个 " 我是什么什么 " 来造句向大家介绍自己 , 就你不能说 " 我是闹闹 ",因为这个就太水了 ,但你可以说比如说 " 我是三只狗狗的主人 "。
哇 , 好难呀 。
相信你 。
我想一下 。
好的 。
可以少一点吗 ? 没有 10 个 。
我的经验是这样的 , 大家往往说到第四个就会想到第五个 , 又会想到第六个 , 然后慢慢慢慢的就完成了 。
你提到这个问题的时候其实是一个对我来说是一个非常难的原因是我在减少对 " 我是 " 这件事情的积累 ,因为之前也跟你说过嘛 , 就是我可能学习一些佛法的东西 ,其实 " 我是 " 这件事情的叠加或加强 , 它会带来很多问题 , 就比如说我是一个什么教授啊 , 我是一个什么什么 , 它可能就会带来它表面的那个东西要维护这个形象 , 就会很用力或
者是之类的 , 所以它其实是一个在我现在的状态来说对我来说是一个很难 , 你懂吗 ?
非常深刻 。 所以你的第一个 " 我是 " 就是 " 我是一个正在尽量减少我是什么什么的人 "。
对 。
那今天就可以豁免你 , 你不用说很多 , 你就觉得最重要的说完就好 。
我的第一印象是这个 , 然后第二印象就是一定要说一个 " 我是 ", 我觉得 " 我 " 是一个容器 , 还是跟 OiiOii 有关啊 , 感觉就是有一个动画之神 ,他只是通过我这个容器来表达这个东西 , 它在这个时代可能会有更好的表现方式 , 然后它不是我在表达 ,是有个东西它要想表达 , 只不过这个容器它非常适合 。
就是 OiiOii 本身其实不做表达 , 它是在帮助想表达的人更好的表达他们 , 它是一个容器 。
对 , 它是个容器 , 包括我自己也是个容器 。 这个的灵感就是第一时间是让我想到了李安的一次采访 , 就是说到一个东西我觉得感触很深 ,他说就是比我有才华的人多的很多 ,他们没有很多机会做成像我这样子的一个成就 , 很大程度上不是因为他们没有才华 ,而是刚好电影之神选中了我 , 然后我是一个容器 , 然后把电影这件事情通过我来表达了出来 , 然后我
觉得某种情况下我也有这种感受 , 就是不是我在表达什么东西 ,而是我希望自己变成一个通道 , 对 , 然后让大家去表达 , 没了 。
好的 , 谢谢 , 谢谢 。
好 , 谢谢 。
我们接下来做个十字路口 。
好的 , 好的 , 谢谢 。
希望过一段时间我们可以再聊一次 ,因为那个时候可能 OiiOii 就有了更多的一些进展 , 然后也看到有更多的人通过 OiiOii 这个容器做出了更多的这个产品的动画 。
希望 , 希望 。 好 , 谢谢 , 谢谢 。
拜拜 。
拜拜 , 拜拜 。
拜拜 , 拜拜 。






