开场0:00
欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在 " 科技与人文的十字路口 ", 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚 AI 时代的 " 积极行动者 ", 和他们一起探索和拥抱新变化 、 新的可能性 。
我是主播 Koji 杨元成 , 联合创办了 《 街旁 》, 新世相和躺倒 。 我相信科技 , 尤其是 AI, 会在未来 10 年彻底改变社会 , 赋能人类 。
欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性
。
我是主播 Ronghui, 目前在一家专注科技投资的风险投资机构工作 , 之前在 《 第一财经周刊 》 担任驻硅谷记者 。
Hello, 欢迎大家来到本周的 《 十字路口 》。 本周我们做客的朋友是童超 , 童超是 Mootion 这个 AI video app 的联合创始人和 CPO。
我们一开始先来和童超做一个快问快答吧 。 年龄 ?
36。
毕业院校 ?
乔治华盛顿和香港科大 。
工作经历 ?
我现在是 Mootion 的联合创始人, 曾经是 360 的 AI 的负责人 、 产品负责人和创新奇智的产品负责人。
可以一句话介绍 Mootion 是什么吗 ?
一句话的话 , 我觉得 Mootion 的定位是这样的 : 我们期待让没有用过 AI 的人做自己的视频 , 讲自己的故事 。
创建 Mootion 有多久了 ?
我们这个项目有 2 年半了 。
Mootion 融了多少钱 ?
我们到现在大概融了 700-800 万美金那样子 。
用户规模呢 ?
我们到 25 年的年初是 200 万 , 海外有 200 万的用户 。
收入规模方面讲吗 ?
我们大概也是同时在年初大概到百万的 ARR 那样子 。
OK, 好 , 谢谢 。 可不可以请童超再花两句话向大家介绍一下自己 ? 然后因为我们知道这个 AI video 的产品 , 就是用 AI 来做视频的产品 ,在市面上可以说是成千上万 。
Mootion1:57
可不可以给大家也安利一下 Mootion, 争取让大家听完你的介绍之后就会想要去试一试 、 用一用 ?
好 , 各位好 ,《 十字路口 》 的朋友大家好 , 我是童超 ,Mootion 的联创 。Mootion 希望让没有用过 AI 的人来开始去讲自己的故事 , 做自己的视频的创作 。
目前我们可以非常简单让用户 4 个步骤去完成自己可以 post 在无论是短视频还是在自己的生活场景 , 或者说一些行业场景里面的一些视频的内容 。
在用 Mootion 的这些用户里面 ,他们有做出过什么的视频爆款吗 ? 不管是在小红书 、 在抖音还是在 YouTube。
产品发布的不久 , 我就请我们自己的运营同学去做了一个实验 。 我说你能不能尝试用 Mootion 每天用 5 分钟做一个视频 , 你看你在小红书上面会有什么样的一些反馈 。
很有意思的现象就是 , 大概他花了两个月的时间 , 每天花 5 分钟 , 大概现在是 1 万 , 两个月的时候大概 13000 多粉丝的样子 。
给大家看一个不同 , 我觉得是不同的场景的一些视频的例子 。 这个是一个欧洲的用户 , 视频是跟宗教相关的 。
你看他现在大概有十几万的粉丝 ,他也是很近的视频 , 大概就有几个 million 的播放 。 所以这部分我觉得是可能偏短视频的领域 , 大家会做很多我们叫 faceless 的这种视频 , 会得到比较好的这种浏览 。
就是不露脸的视频 。
对 ,不露脸的视频 。 还有我其实是找一些用户又收集了一些其他的例子 。 这是一个卡通的 , 像一个你看到有一个 manual 这个地方 ,有一个 manual, 我们专门有一个功能是能够让老师跟学生通过生成 AI 的故事来促进教学 。
这个就是一个双语的故事 , 你看到这里面有中文和英语 。 另外就是其实我谈到我们自己的一些技术积累 , 我们也有一个自研的一个模型 , 我们会发现在专业的这种视频制作里面也会有一个挺好的使用 。
给大家看一个这个视频 , 这是一个波兰的专业的视频的工作室制作的一个视频 。其中你看当这个人戴上眼镜之后, 进到这个虚拟的环境里面 , 所有的角色的画面就是我们来去做的生成 。
这个的用途是一个广告片还是一个 ?
它是一个 MV, 就是它先有了歌 , 然后他们想做一个非常专业的一个 3D 的片子 , 所以就用到我们模型的能力 。
我们当时跟他对接去做了一个这样的很专业的 3D 的片子出来 。
我们听播客的朋友们应该是看不到那个视频 , 所以他们听的过程中也比较难切换到其他平台去搜出来看 。
可能还是要请童超再介绍一下, 用户在用 Mootion 究竟是做哪些类型的视频 。
我觉得可以分成几个类别 。 第一类我们认为从用户的角度来讲是短视频的创作者 ,他们是完全用生成的方式来去替代原来的素材剪辑 。
第二类刚才在第二个视频里面展示到的教学类的场景 ,有很多的老师跟学生在利用 Mootion 去做他们教学场景当中 。
第三专业的创作者 ,他们更多的是用到我们一些底层的能力 ,但是结合了他自己非常多的专业的技巧 , 制作了一些非常专业的像 MV 或者是这种视频的广告 , 甚至于是 3D 动画的小短片里面的一些环节 。
用户用 Mootion 做过最出圈的爆款是什么 ?
这是个好问题 。 我们更多的关注点在于说 , 我们如何能够给用户更持续的创作能力 ,而不是我们持续的去做爆款 。
就像我们内部其实也在讨论 , 如果从产品的角度去看 , 我们的爆款可能有一周的生命周期 ,但是过了一周的生命周期之后, 我们要继续做什么 ?
我们的选择是持续的做爆款 , 还是说我们去更延续的去寻找更长期的价值 ? 我们是要服务一周的爆款 , 还是我们去服务一个十年的用户 ?
我们认为我们的选择是后者 。
我有一个疑问 , 之前不管是 Pika、Vozo 还是 Vigo, 这一类的 AI 视频公司 ,他们都有做出过刷屏的爆款 。 之前 Vozo 的创始人 CY 也上过 《 十字路口 》, 然后他也提到他们好几次比较里程碑式的增长都和爆款出圈有关 。
但是 Mootion 如果没有这样的爆款的话 ,是不是也从侧面在说明 Mootion 这个产品 ,也就是你们其实还没有真正的击中市场的痛点呢 ?
是个好问题 , 或者好的角度去观察 。 从我们的或者我的理解来看 , 第一点 , 视频内容本身它的内容形式是可以覆盖非常多的场景的 ,并不只限于我要在 TD 上面去做一个好的内容 , 或者我在 YouTube 上面做一个好的内容 , 所以我可以通过这个 channel 去变现 。
视频仍然在非常非常多的领域有它自己的价值 。 第二个点就是说 , 我们拿爆款去作为一个增长或者运营的手段 , 我是非常同意的 。
这个事儿是一个很好的杠杆 , 说你在冷启动阶段 , 或者说你在一个新的里程碑的时候有一个非常好的反馈 , 所以很多人好奇会来你的产品 。
这个点我是完全同意 。 我觉得对我们的增长的角度来讲 , 我们可能也没有在这个事情上面做太多的文章 , 我们会认为还是回到刚才我们的思路上面 , 我们会认为更长期的去做这个事会更好一点 。
第三个事儿就是 ,是不是打到用户的痛点呢 ? 我觉得从我们的理解应该是不是从流量的角度去观察这个事 ,而是从收入的角度去观察这个事 。
如果用户真金白银的给你付了钱 ,而且你的付费率又很好的情况下, 我觉得这个毫无疑问应该是打到了用户的痛点的 。
只是 maybe 它没有在 traffic 上面得到很好的一些展示 。
你有关注就是因为你们上线有段时间了嘛 , 你有关注到一直在续费的用户 , 往往是用你们来做什么的用户 ?
其实也很典型 , 就是你会发现在那短视频里面 , 那一群做 faceless 的人, 就是他自己把账号运营起来的人在持续付费 。
我的观点是 AI 可能它的铲子能到 50 分 , 原来可能只有 20 分 , 现在可以到 50 分 , 非常好 。 但是你想运营一个好的账号 , 剩下的 30 分或者 40 分是需要用户自己的 。
你有没有好的故事 ? 你有没有好的表达 ? 你有没有好的展示 ? 你有没有好的运营 ? 这些事其实都不是不直接跟 AI 相关 , 都是跟用户直接相关 。
第二部分就是还是说到那个老师跟学生 。 我有一次做用户的访谈 , 一个老师跟我讲 ,他做了一个尝试 ,他一开始自己得到了一个 Motion 的信息 ,他自己去做尝试 , 说我做一个对某一个知识点 , 我用 Motion 去做了一个两分钟的片子讲给学生 。他发现说我的学生在这个课堂里面 engagement 突然变得很好很好 , 就大家眼睛都在那个屏幕上面 。
最近有一个刷屏的一个 AI 视频 , 就是做了一集 《 猫和老鼠 》, 甚至很多用户第一次看的时候都不知道这是一个 AI 做出来的 , 还以为是 《 猫和老鼠 》 这个众多集中的一集 。
然后我当时看到它的时候 , 感觉这也很像 Mootion 的这个产品想要做的视频 , 就是它有脚本 , 然后有剧情 , 然后也是有连贯的人物 , 然后有大概一分钟左右的长度等等吧 , 好像和 Mootion 的目标是非常一致的 。
但是我们也知道 《 猫和老鼠 》 这个视频 , 它是被一个基础模型的升级给智能涌现出来的 , 这个里面几乎就没有工程化的 , 没有人的交互的操作了 。
所以我也很想问你 , 你会看到之后感到焦虑吗 ? 就自己做了非常多的产品的功能 、 流程的优化 ,但是会不会被 AI 基础模型的能力一升级就给淹没掉呢 ?
所有的这些事情都灰飞烟灭的某一天 。
我觉得这也是个好问题 。其实最近一两周的时间 , 好多朋友都跟我在聊那个 Tom Jerry 的事情 。 我是这么理解的 , 就是首先从技术的角度来讲 , 这个 Test time training 一定是个很有潜力的方向 。
我们其实自己也在去做一些跟进的研究 , 这个部分能力我相信确实是有可能把视频生成的能力带到下一个台阶 。
但第二个点是说 , 比如对于 Mootion 这样的视频类应用来讲 , 我们会更多的观察基础模型和能力的升级 ,其实对于这类的应用来讲是好事 ,而不是坏事 。
为什么呢 ? 就是我们去观察视频类的创作 , 如果我们观察一个用户创作的过程的话 , 视频创作是一个环节很多 、 流程很长 、 利益相关人也很多的一个任务 。
它不像一个像之前 Koji maybe 大家关注过 Jasper 或者 Copy, 文字的工作可能就是一跳 , 我想然后我输出 ,但是视频是一个很长的工作流 。
我们会认为说 , 当一个 AI 可能会颠覆的任务 , 它的环节越长 、 过程越多 、 利益相关人也越多的时候 ,其实它是更难被颠覆的 。
同时在这个很长的流程 、 很多的环节 、 很复杂的利益里面 , 把好的体验 、 好的功能设计出来 。
其实在提到刚才你说到一个这个视频制作的环节非常多 , 参与的角色非常多 ,因此它不会像文字工作一样轻松的就被模型的基础能力给淹没掉 ,因为这里面有很多的细节 。
但其实也有一个争议 , 就是大家会觉得今天很多做应用的人是在做套壳 。
如果你看过往技术发展史 , 你会发现套壳这个词都会出现在一个技术 hype 的时间 , 就是那个技术 hype 之后就没有人提套壳了 。AI 其实我觉得也是这个样子 , 就是目前处在一个 AI 快速技术发展的状态 , 所以很多人会特别高估现在的技术的存在 , 就是高估现在技术能力 。
当你很高估它的时候 , 你就会认为说目前在它之外做的所有的事看上去好像都是一个浅浅的一层的事 。
但是从我们的观点 , 当你从外部进到一个真正在去做产品的时候 , 你会发现确实基础能力就像我刚才讲的 , 它是 50 分 ,但是用户要的是一个 80 分的东西 , 那 30 分谁来填呢 ?
是一个产品要去填 。Mootion 其实就是在填这 30 分的 , 本质上就在填这 30 分的这个路径 。 所以在这个事儿上, 套不套壳对我们来讲其实并不关键 。
假设未来的像刚才 Koji 问 《 猫和老鼠 》 类似的能力 , 基础模型提升之后, 我们认为说越发会显得应用和产品设计的能力变成了一个差异化的能力 。
这种差异化能力很导致用户到底是选择 A 还是选择 B, 或者他什么都不选 。 我们自己作为创业者 , 第一不要有技术的洁癖 , 就是我只做高精尖的别人没做过的东西 。
第二我也认为不要有技术的幻觉 , 就是我觉得技术现在真的很好 , 或者技术两个月之后就会变得超级无敌 。
我觉得我们还是要更实际一点 ,有一个客观的评估 , 然后回到自己做的事上会比较重要 。
前段时间张月光难得的出来做了一次分享 , 然后有人拍了他现场分享的一些 PPT 给我看 , 然后其中一页他在讲的是要去寻找那些在 90 分到 100 分之间的产品机会 ,因为用户是不接受 20 分 、40 分 、60 分 、80 分的产品的 。
所以这和你刚才提到的观点我觉得好像有一些不一样 。 我觉得一方面是你会不会担心说今天大模型 50 分 , 你们花了很多时间把它做到 80 分 ,但是其实也有很多人在等着大模型直接变到 90 分 ,在那个时候再出来做产品 。
好问题 , 这个事儿对我们来讲 maybe 是个问题 ,但从现在的技术的方向和你真正在去达到用户的那个要求的时候 , 这 30 分的事情像我刚才讲在视频的创作里面是一个环节非常长 , 然后过程非常多 , 利益相关人也非常多的情况下, 里面存在一层非常非常重要的事儿 ,是你对视频创作的 know-how 和你对用户的理解 。
这个事儿即便用户模型到了 90 分 , 这个 90 分会变成 60 分 ,因为我刚才讲它变成 commodity, 它水涨船高 , 所以你变成新的 60 分 , 剩下的 30 分谁来做呢 ?
仍然是产品公司要做 。 这个点早做一定要比晚做好 。 至于说模型能力要不要提到 90 分 , 我们再去做 , 我觉得这个是对技术的考量 。
可以给我们举一两个例子吗 ? 就是模型可能今天只有个五六十分 ,但是你们在产品上面给它大大提升了体验 , 所以让用户最后做出来的作品也变得很好的这样的交互上的例子或者设计上的例子 。
好呀好呀 , 我觉得可能有两三个吧 , 两三个或者三四个事情可以跟大家拆开想一想 。 第一个事儿是我自己其实有一个习惯 , 就是我们大概产品去年上线开始 , 我每周都至少会访谈一个用户 , 无论是哪个国家的 , 可能超过 20 分钟去访谈用户 。
我其实积累了很多很多的用户反馈 ,有一个非常好的共同的声音给到我们 , 就是他们认为说 Mootion 是一个非常易用的产品 , 非常简单 。
我们对用户讲的就是说我们可以让你四个步骤完成一个视频的创作 , 每一步就像一个引导 ,是个非常简单的傻瓜化的操作 。
我们把视频创作里面从起端脚本怎么写 、 镜头怎么表达 、 叙事是哪些类型 , 这些所有的流程连在一块去做了自动化 , 让 AI 去做了自动化 , 才完成了我刚才说的从 50 分到 80 分的能力 。
那么用户见到的是一个 80 分的东西 。 第二个事情就是也很有意思 , 就是我们去年 12 月份在东京做了一个非常小范围的用户见面会 , 我们在交流的过程当中有一位我觉得可能有 60 多岁一个老者 ,他自己是个导演 , 然后他跟我交流 ,他说你们是一个亚洲的团队对吧 ?
为什么你们的平台在生成亚洲人的形象的时候不能生成亚洲人呢 ? 因为确实现在我们从模型的角度来讲 , 很多的训练数据其实是偏西方的 。
所以虽然大家给的指令是说你要生成一个比如说日本的或者中国的什么人 ,但你生成的很容易很有西化的这种属性 。
然后他说你为什么不能做这个事儿呢 ? 这个其实是被我当时是忽视了一个事儿 , 被我忽视了一个细节 。
我回来之后就专门去做优化 , 去做模型的优化 , 让它更好的去做指令的遵循 , 那么能生成不同种族形象的时候都更加的匹配 。
后来这个人我才知道 , 这是一个日本非常有名的制片人和导演 , 叫前井龙 , 周迅的第一部电影 《 苏州河 》 就是他的制片 。
第三个事儿 ,因为我 2 月份去了一趟阿拉伯那边 , 就是整个中东的国家去了一遍 , 我就发现一个事儿 , 就是他们 3 月份要斋月 ,他们没有什么事干 , 所以要做很多内容 。
所以我们很快就推了一个新的功能 , 就是我可以很好的生成伊斯兰教的故事 , 让他们去分享 。 这里边有什么问题呢 ?
就是如果你去拆伊斯兰教的教义 , 你发现他们是有一个真主 、23 个先知 , 这些人都是不能有形象的 , 就是他们在教义里面是不可以有形象的 , 要不然是一个光 , 要不然是一个光圈来去代表他们 , 就是很神圣 。
我们去看遍了所有 AI 生成的能力 , 哪一个可能 by default 可以生成这样的内容 ,其实没有的 。 我们就很快的上了 ,3 月 1 号就上了这个功能 , 我们才发现亮起的非常非常快 , 甚至一度可能每天我们的用量可能百分之十几都是这个内容带出来的 。
最后一个我也很有意思 , 现在 AI 的推理成本其实是不能忽略的 , 我们想让每一个人用 , 我们就得让他用的更便宜 , 否则我们就不可能把规模做得很大 。在这个角度来讲 , 我们其实在背后的架构和推理测试做了非常非常多的投入 , 这个是用户不可见的 ,但是用户可见的就是我们足够便宜 , 能够用非常简单的体验 , 非常简洁的体验和
极低的价格 , 让它生成足够好的内容 。 从产品上线去年 6 月底 , 产品上线半年左右的时间 , 我们优化了整个的空间毛利 , 最后导致毛利空间大概优化了 50%。
前面说到四个步骤来完成一个视频创作 , 这个四个步骤是怎么得出来的 ? 我指的是比如说为什么不是三个 , 为什么不是五个 ?
前面你说就是其实是把整个拍摄视频的这个流程连起来 , 然后做了自动化 , 这个过程里面一些比较对创业者比较有借鉴意义的可以讲一讲吗 ?
其实是我们在拆解了整个视频创作环节之后定义出来的 , 就我们会认为用户要做的是几个事儿 。
第一 ,他想要什么 , 然后他有什么 , 这是第一步 。 第二步是他要得到一个整个内容的结构 。 第三步就是他要去把主要的功能和内容组织好之后, 去选择叠加的或者附加的元素 , 比如说你要什么特效 , 你要什么转场 , 你要什么声音 , 你要什么音乐等等等等。
最后一步就是这个合成 , 然后分享 。 合成分享就是你得到了视频 ,但你得到视频之后, 单视频可能不足以支撑你去做内容的分享和传播 , 比如说你的描述怎么写 , 你的这个 hashtag 怎么做 , 所以我们把它定义成了四步 。
然后刚才荣蕙你问那个里边的一些细节 , 就做自动化的部分 , 这一部分我觉得是很感谢我们的其中的一个投资方 ,他们是个非常专业的 , 国内非常非常好的一个影视公司 。他们其实给了我们非常多的在影视创作上面 , 就是我刚才说到的脚本怎么写 , 脚本结构是什么 , 就影视里面真的好的那种脚本结构要怎么写 , 那 AI 能不能写出这种类型的脚
本 。 第二 , 镜头的表达 , 什么样的镜头能够表达一个比如说惊恐的表情 , 那一定是对眼睛的一个特写 。
什么样是能够表达一个特别欢快的场面 , 一定是一个超广角 ,有非常非常多的人。 这类的其实事情是需要我们告诉 AI 或者我们来定义一个能够让 AI 生成的内容类型 , 包括叙事类型其实也是一样的 。
但我很好奇 , 就是 AI 它为什么会不知道惊恐要去拍人的眼睛 , 欢乐有一个处理方式是拍一个大广角 , 然后有很多欢乐的人, 这难道不应该是 AI 自己就知道的吗 ?
为什么你们要自己去干这个事儿 ? 然后我另外一个类似的问题 , 就是当你提到毛利的优化的时候 , 我在想其实这好像也是今天很多人对创业者的一个反面建议 , 就是不要去在成本上做优化 ,因为大模型很快自己就会把成本降下来 。
就听起来你们做这些事情就是有一点逆潮流或者逆主流观点 , 你怎么看呀 ?
先说第一个 , 我们在做测试的时候也期待大模型有这样的能力 , 就是它可以懂得 ,但是很抱歉它不懂 , 即便到现在它还不懂 。
第二个方面 , 从毛利的角度去看 , 这个其实很有意思的 , 我们一开始的目标是去优化我们的推理架构 ,因为它太慢了 , 我们要生成一个好的视频 , 我们希望它很快的生成 ,但是我们发现慢的背后其实就是成本 ,因为你消耗了更多的 GPU 时长嘛 , 所以你就有更多的成本 。
当我更快的时候 , 我自然我就成本就可以降得下来 。
其实就在你刚才回答我问题的时候 ,因为我真的难以相信大模型不知道一个惊恐的画面要去拍人物特写 , 所以我就直接问了 Claude, 就是帮我生成一个文生视频的 prompt, 然后要给一个明确的画面需求 。
这个 prompt 我说的六个字就是一个惊恐女人, 然后它就会给一段文字 prompt 就延展出来需求嘛 , 这个需求里面就它明确的就有写到一个年轻的女性 , 她的双眼睁大 , 瞳孔放大 , 然后镜头从女性脸部特写慢慢拉远 , 展示她孤立无援的处境等等等等。
所以我想说的是 , 今天我觉得这个模型是可以做到的呀 , 会不会你是在半年前做不到 , 然后你们花了很多时间去用你刚才说的方法训练 ,但在今天这些时间和当时的努力被浪费了呢 ?
你会有这样的担心吗 ?
对 , 如果你单点去做测试的话 , 你会发现它是可以的 ,有时候是可以的 ,但你把它放上一个整体工程 , 说这是一个用户的 prompt 和素材给我 , 你要把它组织出来一个有效的完整内容 , 说这个场景里面 , 这个故事里面包含 64 个场景 , 这 64 个场景里面语义上面相连 , 且每一个内容 、 每一个图片 、 每一个视频要去表达当时的那个语义 , 这个是很难很难的 。
所以如果你只给一个输入 , 它是可以的 ,但你把它变成一个系统 , 变成一个 network 的时候 , 它就 fail 了 , 这个是很大很大的差异 。
我蛮好奇你们现在公司里面的这个技术研发人员大概有多少位 ,他们都是怎样的组成啊 ?
我们现在人很少 , 我们现在 20 个人, 我们只有一位财务同学 , 然后一个运营同学 , 剩下的全部都是我们的研发同学 , 这里边大概有一半是算法的同学 , 另外一半是工程的人。
收入跟功能的迭代有什么就是特别相关联的拐点吗 ?
去年 12 月份我们其实做了一个很重要的功能 , 听起来可能很简单 , 叫模板 , 所谓的模板就是不同的入口 。
这个模板区别于我觉得区别于那些设计的模板 , 这个背后其实是一些 AI 的工作流 ,其实就是刚才 Koji 很关心的 , 就是说你背后为什么你做这个事的时候好像看起来你能做 , 那为什么大模型自己不能做 ,其实背后就是需要有很多不同的工作流 , 比如说我刚才举例的那个伊斯兰教的故事 , 那个之后就是一长串的 AI 的工作流 , 或者你可以理解为那是一个 agent
在工作 ,他要完成一系列的任务 , 然后把这个内容好的内容给它做出来 。 所以这个事我觉得是非常重要的一个变化 , 就是我们通过这样的一个界面 ,其实更快的或者更深的扎到了用户场景里面去了 。
所以我们会发现用户在这些不同的入口上面得到的好的内容之后, 我们的付费有一个比较大的一个提升 。
其实我在用 Mootion 的过程中发现你们有一个设计是不让用户自己选视频模型的 , 所以用户应该没有办法自由选我今天是用 Flux 是用可灵还是用 Veo2 等等 , 这个是出于什么考虑来做的设计 ?
我觉得这个跟我们定位相关吧 , 就是我们的用户刚才提到说让没有用过 AI 的人能够做自己的内容 , 讲自己的故事 。
所以我们会认为说用户其实本质上要的是效果 ,他要的不是模型 , 就像赵本山说的对吧 , 就是别看广告看疗效对吧 , 就是他们其实并不关心这个是什么 , 或者后边的品牌是谁 ,他们要的是最终的结果 。
所以我们会有一个或者我们自己的选择 , 就是你给到用户这些模型之后, 反而增加了他们的学习成本 。
哦 , 什么是可灵 , 什么是 Veo, 什么是海螺 , 什么是 Pika, 什么是 Sora, 这个反而增加他们的学习成本 。
我理解我们都是在所谓 AI 圈子里的人, 所以我们很容易接受到这种信息 ,但是还有太多太多我觉得 AI 的渗透率远远没有到我们认为它是一个每个人都知道的状态 。
所以有太多太多人其实没有这种信息 , 当他没有这种信息的时候 , 我认为不给他们 , 或者让他们专注在效果跟创作上面应该是更好的 。
我在想 , 比如说就像刚才你也提到嘛 , 我们录播客的前一天 , 可灵发了 2.0, 确实很炸裂 , 然后十字路口公众号也写了很长一篇文章来介绍可灵的 2.0, 然后一定会有好多用户多多少少也看到了这个新闻 , 然后他们会不会跑来问 Mootion, 就是你们里面有这个可灵 2.0 吗 ?
或者另外一个情况就是他会不会因此就流失了 , 就跑去用可灵 2.0 了 , 然后会不会他就跑去用了其他支持可灵 2.0 的和 Mootion 类似的竞品了 ?
就是这个你会怎么看 ? 听起来你好像就放弃了这些用户了 。
对 ,因为我自己其实很了解这些用户的 , 我们可以统称为他们叫 AI 的尝鲜者 , 或者叫技术的尝鲜者 ,他就像一个接受曲线最前面的那 3% 的人, 这些人很活跃 ,有很多的看法可以影响别人, 所以我们会看到非常非常多他们的消息 。
从这个角度来讲 , 就是这个群体对新事物的接受程度非常强 。Maybe 就是如果我现在没创业 , 我估计也是他们中的一员 , 就是做很多的新的技术尝试 , 然后做很多的分享 。
但是这些用户有一个明显的问题 , 就是坦白讲这些用户的生命周期其实是非常短的 , 大概就是一个月 ,因为一个月之后在现在的技术迭代上面一定会有新的东西给他们去用 ,他们也并不在意说在某个场景上面要用什么 ,因为对他们来讲最大的价值是先 ,而不是某个场景 。
那先的事情一定是 switching cost 非常非常对他们来讲非常低 , 要去转移的 。 我觉得对我们来讲可能就是一个取舍 , 就做产品很多时候就是取舍 , 技术不成熟 , 资源不充足 , 用户不清晰等等等等一系列的事 , 我觉得很重要的就是取舍 ,因为你不可能得到所有的资源 , 你也不可能在某一个时间内有充足的声量 , 所以做好取舍 , 然后能识别好那个最重要的
问题 , 应该对于产品来讲是最核心的 。
刚才提到你每周会做一个用户访谈 , 这个点还挺有意思的 , 我觉得大部分的 founder 都会说自己非常的在意用户的反馈啊什么的 ,但是每周做一个保持这个频率 , 我感觉还是一个在操作跟坚持上都还是挺有挑战的一个事吧 ?
创业经27:52
你现在还在做吗 ?
我还在做 , 我每周大概要给 50 个用户发邮件 , 就是完全 cold call, 然后可能有一两个人回我 , 我可以安排到这一周或者下一周 ,因为对于用户来讲确实你通过邮件这种方式其实回复率很低的 ,但我觉得这个事很重要 , 或者非常非常重要 , 就是因为我们其实谈到了好多 AI 的技术 , 当这个技术不成熟的时候 , 用户的心智 , 用户的接受点其实是很 tricky 的
, 就是它到底在哪其实是很难找的 , 这个点你只有问他才知道 ,但是你的用户又有很多很多的类型 , 那就需要不断的去找到他们 , 所以我自己会做这个坚持 。
另外就是我觉得作为一个产品负责人来讲 ,有这种体感也是很重要的 , 就是你自己很容易做产品的时候会先入为主 ,但是你在这种技术也在变化的过程当中, 你是很容易失去体感的 , 就是你不知道用户到底在想什么 ,而且他那个接受点在变化的情况下, 你一定要随时随地知道 , 那这个通过什么实现呢 ?
我觉得目前的状态只有通过不断的跟用户交流才能实现 。
你说这个让我想到就是以前那个 Stripe 的 CEO Patrick,他发过一个推 , 大概意思就是说他把这个 user research 当作是不是 user research 指向了你做什么功能或者做什么产品 ,而是他先让你形成一种你自己的一个思维模式 , 然后你再用这个思维模式去做一个产品 。
没错 , 我特别同意 , 就是我其实有点像我刚才说的那种体感 , 就是用户意识是一个很容易对于我认为高认知的人丧失的点 , 就是你因为你自己认知很高 , 所以你认为说你说的可能是对的 ,但是你服务的人可能是你完全不熟悉的群体 , 那你怎么能跟他们产生共情 , 能够跟他们产生交集呢 ?
我觉得事情就是你要不断的不断的把自己扔到那个场景里面去 , 扔到他们的那个处境里面去 , 才能得到这些你往下走的这些方向 , 这个事确实我非常非常同意刚才那个说法 。
第二就是你可以很快的切到一个另一个身份上面去 , 或者你可以有两三个或者三五个身份同时来去思考说我的产品要怎么做 。
那这是不是来自之前的什么经验教训 ?
我觉得是有的 ,是有的 , 就是因为我自己其实是做 CS 然后又学过 machine learning, 我其实是有技术背景的人, 有技术背景的人就只是谈我自己 。
我认为有一种就是我刚才讲到的很容易产生的技术幻觉 , 就是你认为它都能行 ,但是当你把手弄脏的时候 , 你发现它不行 , 那你就卡在这了 。
所以过往我自己的这种经历其实是有类似给我的这种负反馈 , 就是说其实我自己也要时常提醒自己说你把技术扔掉 , 你把技术无论是什么技术 ,ABC 各种各样的技术 , 当我要去解决一个用户问题的时候 , 那个问题到底是啥 ?
我现在不断的要提醒 , 或者说在过往的这种产品的这种经历里面 , 我做过很多尝试 , 就是拿着技术 ,其实我们说拿着锤子找钉子 ,有时候会成功 , 就是因为你的锤子在那个场景下面一下就能砸中它 ,但大多数是失败的 。
所以这种失败的经历其实是非常强的负反馈给我要去在后边的 , 尤其比如现在这个产品 。
所以你们找过什么样的这个锤子找钉子没找到 , 让你感到非常挫败 , 就最大的一次挫败的故事可以讲一下吗 ?
我觉得太多了 ,但是对于 Mootion 我觉得就是在 Mootion 的角度来讲 ,其实有一个很有意思的 , 我觉得不能叫挫败 ,但是一个很重要的教训 。
我们在刚开始的时候其实是非常专注自己的基础技术研发 , 所以我们大概是应该做了世界上第一个在 3D 的动作生成的模型 , 这是一个尺寸不大的模型 ,但是应该是世界上第一个 。
它的作用是什么呢 ? 它就是生成我们看到那种 3D 的电影或者动画或者游戏里面的角色的动作 , 你输入一个文本的 prompt, 我可以给你生成一样的动作 , 非常兴奋 。
我们当时 23 年的年中吧 , 非常兴奋 , 我们得到这个模型 , 然后我们把它推出去 , 很快的我们在这个反馈里面就两万多个专业的这种 3D 的创作者就给我们很好的反馈 。
过了两个月我发现有问题 , 就是我刚才说的问题 , 你往后走要干什么 ? 你这个模型到底要干什么 ?
你生成这个角色动画 , 然后呢 , 你能放在真正的游戏工业或者影视工业里吗 ? 还不行 , 那如果不行 , 那这个事往下怎么走呢 ?
就走不下去了 。 所以我们用了就是我刚才说两个月的时间 , 我们就做了一个很快的决定说不行 , 这个事不成立的 , 就不成立的 , 要不然你做一个非常专业的工作流出来 , 服务专业的这个创作者 , 要不然你就把这事停掉 , 你去做另外一个事 。
所以我们当时非常快的去做了一个决定 , 就是我们把这个模型的能力内化在现在的这个 Mootion 的产品里面 , 去支撑我们有更好的生成的时候的可控性 , 去做到这个事 。
所以前面那个事情为什么我说我一直要再提醒自己 , 就是因为即便在创业的一开始 , 我其实也会有这样的问题 , 就是因为非常非常多的技术的可能性 , 技术的机遇放在这 , 你就总忍不住去伸出手去探索 。
但是当你没想好你在解决什么问题的时候 , 出去就一定会被打回来 , 这个事其实是挺关键的 ,因为你想那是我们 4-5 个月的创业期间的尝试 ,其实是成本还是蛮高的 。
说到这里 , 这个跟你过往的这个工作经历是不是也有一些关系 ? 就比如说之前你刚刚提到在 360 手机 , 然后还有我们知道是那个创新奇智嘛 , 这个可以说说就是这些经验跟你之前的工作经历有哪些 take away 是很有关系的呀 ?
对 , 我觉得奇智也是一个点 ,因为奇智算是上一代的 AI 公司了嘛 , 大概从 16 年到 22 年的样子 , 包括当时的四小龙 , 那一代的公司其实是受 DeepMind 的影响 ,DeepMind 其实给了大家一个非常强的希望说 , 哦 , 你看除了当时这个下国际象棋 ,他还能下更复杂的围棋了 , 然后他在非常非常多的领域有特别好的进展 。
所以奇智当时或者说那一波的 AI 公司其实都是也心里都有了一个这样的 AI 的技术梦想来开始去做的创业 ,但问题也在于此 , 就是如果你拿着技术 , 那就是典型的锤子找钉 , 拿着锤子找钉子 , 那有两个问题 , 第一个就是其实当时的锤子是不够硬的 , 我们会发现以 CV 为主的技术或者 NLP 的技术 ,Machine Learning 的技术等等 ,他们都只限于在某一个细分场
景里面可能达到一些可以工业化产业化用的性能 ,但是它的普适性是非常弱的 , 所以就带来说你的锤子即便砸到这了 , 那你也要用非常非常多的人和额外的工程去补充或者来实现你可以交付的能力 , 那这个事是很重的一个模式 , 它并不符合我们认为说 AI 能够改善劳动力 , 甚至于说提升劳动效率的这个事并不存在 。
第二个问题还是拿锤子找钉子 , 作为一个创业公司 , 即便你融了很多钱 , 那你有多少机会挥这把锤子呢 ?
其实也是有限次数的 , 那就会带来的问题是你越挥到后边这个风险越高 , 然后你敢挥下去的决心也越小 ,因为你不知道这个事到底能不能成 。
那从这个角度来讲 , 就是你前面的这个钉子没有砸到足够多 , 到后边没有办法持续的帮助你去提营收的话 , 那这个事可能也就会出现非常大的挑战了 。
所以我觉得这个事或者诸如这样的经历也是给我为什么一定要警醒 , 说我们即便要去用新技术来去做产品或者做应用的时候 ,也一定要先想好我们的用户到底是谁 , 然后我们到底解决的是什么问题 。
因为当时创新奇智是一个非常明星的企业 , 就是开复老师 all in 的一家 AI 公司 , 然后我记得当时也有新闻说 CEO 来追随开复老师 ,他是放弃了 1800 万的年薪来做创新奇智 , 然后前后也融了七轮 ,有软银这样的国际大基金也是在背后支持创新奇智 ,但是如此黄金的阵容 , 然后当然最后也很努力上了港股 ,但是这个上市之后一直年年都是巨亏 , 然后股
价现在已经暴跌了 80%。 然后我知道这个童超你是产品总监 , 应该是非常核心的高管之一 , 然后你刚才也提到拿着锤子找钉子 , 然后一直就是这个很难受 , 可不可以讲一讲当时你们找过哪些钉子吗 ?
因为我觉得 AI 那个时代的故事有可能对我们眼下正在发生的这个时代的故事多多少少有一定的借鉴意义 。
对 , 我觉得 Koji 你说的点我是非常赞同的 , 就是即便技术有了代际的变化 ,但是大家面对的场景其实会是相似的 , 这一点其实你从商汤也能看得出来 , 商汤正在经历自己的转型 , 我很多商汤的朋友也正在经历自己的这种技术路线的转型 。
回到场景上面 , 我们当时其实探索了非常多的场景 , 或者行业 、 零售 、 工业 、 制造 , 这其实是非常头部的或者说体量非常非常大的这些行业 , 各自都会有问题 。
我们先说工业 , 这个其实是后边比较重要的一个产品线 , 工业的问题就是它的细分的赛道其实是非常多的 , 不同细分赛道里面中国的制造业确实增长得非常非常快 , 那同时代表的就是他们的要求其实是越来越高的 。
那在这种不同赛道上面的高要求 , 对于当时的 AI 来讲是有局限的 , 那这一部分受制于技术 , 我觉得当时你挥起锤子来的时候 , 你就不一定能砸得到这个钉子了 , 这是工业的问题 。
金融的问题 , 我觉得金融是一个确实 maybe 是做 to be 很理想的一个行业 , 就是因为在金融行业的人大家认知也很好 , 然后也很愿意接受新的技术 , 同时金融行业当然是一个作为 to be 的行业公司来讲 , 可能是一个非常好的一个收入来源 。
但是当时的金融也会有一个问题 , 就在于说金融行业是有非常强的对于所谓模型的或者技术的诉求 , 就是你需要给一个模型 , 那这个模型的归属和这个模型之后的更新维护等等等等 ,是要归属于银行 , 或者说我们说银行这个保险这个证券等等 ,他们都会有类似这样的一些个诉求 , 那这个诉求对于上一代的 AI 公司来讲其实是比较困难的
, 你的模型部署进去你要持续不断的更新维护 ,不像现在 OpenAI 锁一个 0720 版本 , 那这个事其实我可以解决很多问题 ,但上一代其实你很难去这样去解决问题 , 你要持续不断的来去做这个事 , 那就意味着在这个事上面你要投入更多的我刚才说到的更多人力 、 更多劳动力来去维护 、 来去更新 , 那其实很有挑战的一个问题 。
零售就是太小了 , 就是每一个场景都不大 , 当然机会很多 ,但是每个场景都不大的时候 , 你又没有办法像现在的 AI 的技术可能更有普适性的时候 , 那挑战就是你要花多少的横向的人来去做 , 比如说 10 个 、50 个 、100 个这个项目或者客户的服务 , 这个事是比较有挑战的 。
那你觉得就是之前的这个创新奇智的这个经历会在 AI 这一波有看到有什么类似的案例吗 ?
我理解 , 我觉得这一波的 AI 可能我的判断可能是不会 , 当然因为我自己现在我有过那一代的经历 , 现在又在这一代上面来工作 ,因为我们就假一个例子 , 就是如果 89 年前我们去假想说 AI 能够让一个在县城的老奶奶跟 AI 说话 , 这个在 89 年前你是绝无可能去想象这个场景的 ,但在现在国内我相信你肯定是可以找得到这样的例子的 。
今年春节我回家 , 我就有一个远房的表亲 ,也就是年龄很大了 ,他说那个有个什么什么什么 seek 好像挺好的 , 你给我找找 ,他说的是 deep seek, 就春节前 , 我觉得这个事是放在 89 年前你无法想象的 , 那背后我认为的原因是 AI 在这一次的能力最大的区别是它的普惠 , 就是它能够让更多普通的人, 没有用过 AI 的人, 能够享受到 AI 的能力 , 这个是这一
代 Gen AI 最大最大的价值我认为 。 至于说 transformer 有没有呢 ,其实我们大概在 22 年的时候我们就做了一个 transformer 架构的一个模型 , 大概不大点的模型 , 刚刚到 be 的左右的模型 ,但是这个事不重要 , 我认为不重要 , 就是这一代最大的价值就是普惠 , 那当你有普惠的能力的时候 , 就变成了你现在的锤子有了更好的能力能够去砸得到钉子 。
第二呢 , 我认为在现在的这个技术演进上面 , 可能现在的技术也就是万里长征第一步 , 我们有看到未来非常非常多的沿着这个技术路线进化的可能 , 那无论我觉得这个价值是在 B 端还是 C 端 , 它一定都会有接下来去继续放大这个价值的机会 。
所以从这个角度来讲 ,也区别于上一代的 AI, 就是你看到 CV,CV 就是我在 POCO 上面打一个搒 , 说我是第一了 , 然后我就是第一 , 然后明年那个新加坡国立的又来一个打搒 ,他又是第一了 , 然后背后你都不知道他是怎么做的 , 现在大家都是架构透明 , 然后我们数据都可以海量的数据开始去做 , 你会发现我是有路径可能达到我们所追求的那个智能的目标
, 那在这个角度来讲是完全跟上一代的路线是我觉得是不可同日而语 。 所以这个角度我会认为说这一代的这个 AI 无论是在应用上面还是在模型上面 , 可能真的都会有很大的潜力 , 或者不太会出现说上一代可能集体都会哑火的这种问题 。
但单独讲 , 就是如果我们只看大模型的公司的话 , 我觉得这个问题还是悬在他们头上的 , 就是你做了模型 , 那模型之间又有很多像 deep seek 出来 ,其实就会有很多大家对大家的冲击 , 那在这个事情上面你如何面对市场或者面对自己的技术 , 这个事我觉得确实对现在的大模型公司可能也存在这个问题 ,但如果说做应用的话 , 我觉得这个包袱会
小很多很多 。
我们之前聊天的时候你有跟我们说到就是在之前有在 OpenAI 见那个 Ilya 的事情 。
对 , 就是也挺巧的 , 我们在刚刚开始没多久的时间 , 所以机缘巧合也是当时开复老师介绍我们团队 , 就我合伙人去硅谷 , 正好他在那待了一个月左右的时间 , 就机缘巧合在 ChatGPT 发布前的一周左右见到了 Ilya 和 Greg, 那当时我合伙人给我带回来的消息就说 ,他们好像要做一个应用 ,但是 Ilya 自己也说我不知道这个事会怎么样 , 然后就事情发生了 , 然
后这个就变成了改变世界的应用 , 改变世界的一个产品 。 这个事给我很大的冲击是什么呢 , 就除了刚才说到拿锤子找钉子的事之外, 第二个点就是你会发现在这种技术快速演进不断爆发的情况下面 ,其实没有谁比谁的认知更高 , 尤其面对市场的时候 , 没有谁比谁的认知高多少 , 大家其实都差不多 , 都是在探索享受这个技术带来的一些收获的时
候来去寻找说我在市场或者在用户侧可能的价值 。 所以我认为这个点给我们最大的启发就是 , 当我们现在在这个处在这个 AI 时代的时候 , 我们最要紧的事情是什么呢 , 就是我认为是多实践 、 快犯错 、 然后这个满负荷的迭代 。他们因为其实 Ilya 跟 Greg 没有给太多的所谓内部消息或者什么很深的这种见解 ,但是他们的这种预期和后边的这
个反转是给我们很多的启发 。
这个其实也是我以前很早很早以前听过一个陈世俊的演讲 , 然后陈世俊讲了一段话 , 就是 Steve Chen,他是 YouTube 的其中一个 founder, 然后他讲了一段话我印象特别深 ,其实大家很多时候都以为一个很厉害的创业者他好像是一个上帝 ,他是一个先知 ,他知道什么东西 , 然后他去做 ,他说其实不是的 , 就是他说这是大家对创始人最大的误解 。
AI视频46:18
那我们来说回这个 AI video 这个领域的创业 , 可不可以请童超帮我们来就是盘点一下这个 AI video 的整个这个创业的全景图 ,也可以着重说一说你比较看好哪些 。
我觉得模型的公司就比较平 , 大家都在一个水平线上面来去挑战模型更好的性能 。 从应用的角度 , 我大概把整个视频类型可能分成五类 , 第一类就像偏 AI 剪辑的类型 , 就是用 AI 去做原来剪辑的能力 , 比如说那个 Descript、Opus, 之前我记得 Koji 也说谈过 Opus、Captions 这样的公司 , 那他们是在去
用 AI 的能力解决原来的剪辑问题 。 第二种像是我理解或者我总结叫 talking head, 就是里边有个人, 那这个人更多的就是比如有数字人或者拿真人来去做数字人, 那这些比如说 HayGen 对吧 , 比较典型的那个 ,Hedra 最近也是 ,DID, 然后我今天早上还看那个 Synthesia, 就是那个英国的公司好像刚过了一个 1 亿美金的 ARR, 对 , 所以这一类我觉得也是一类公司 , 那他们其实最终产
出也是视频 ,但是路径是他有一个真人在里边来去用在不同的场景 。 第三个事我理解叫视频特效 , 就是比如说 Pika 或者说 Vigo,他们做的事就是我在视频内部可以有不同的效果出现 , 这个其实很像我们在传统视频制作里边的这种后期特效在这一部分 ,但是他们用一个生成的方式能够去解决这个问题 。
第四类有点像 Motion 这样的这个产品 , 就是完整的端到端生成一个完整内容 ,不像生成一个 video clips 对吧 , 视频模型的公司更像生成一个 video clips,但是这些应用层的产品去生成一个完整内容 , 包括 Motion, 包括另外一个产品叫 Flicky, 美国还有个公司叫 InVideo,其实大概都是在这个水平上面 。
最后一类像是不同功能的单点功能的类型 , 比如说我们就看到一些这个 video dubbing, 就是 video translation 的东西 , 或者是做这种 face swap, 然后换脸的这种 , 那其实更像是在视频的整个创作过程当中某一些单点的功能 , 然后会有公司专门来去做这部分的应用 。
所以我自己对于整个的视频应用大概分成这么五类 ,但我有观察就是第一呢 , 你会发现这些公司其实都是铲子 , 就是他都是要得到一个最终内容的一部分 , 或者是串联了一个环节 。
那在这个铲子上面 , 我有一个观察或者我们自己的一个变化 , 就是我会认为生成和剪辑这个事可能最终会融合在一起 ,因为从用户的视角来讲 , 我并不关心这个事是这个 clips 或者说那个效果是生成的 , 还是说我拍的 , 或者说我拿到了一段片段之后, 我怎么去剪得到一个我想要的 , 比如说一个 highlights 的一个视频 ,他其实并不关心这里边的过程 。
那我们会认为未来有可能的一个情况就是我们说 AI 剪辑类或者传统的剪辑和现在整个生成 , 无论你是做特效还是做像 Motion 这样做整体生成的 , 可能会有一个融合的趋势 。
那在这个融合的趋势之上 ,其实有一个机会就是谁能够先定义当剪辑跟生成融合的时候 , 那个产品的形态是什么 , 这个其实我认为是有一个很大的机会 。
这个先做个预告 , 可能 Motion 会在今年年中或者下半年的时候 , 我们可能会推出这样第一个这样形态的一个产品出来 ,也请大家期待 ,也是一个我们思考的一个呈现 。
第二个刚才荣慧问到说里边的产品哪个会比较关注 , 我自己其实从产品的创新性跟体验来讲 , 我其实很欣赏 Descript,Descript 其实他是在尝试用一个自然语言交互的方式来去更新或者迭代现在比较繁琐的这个视频剪辑的能力 , 里边其实还有很多我自己也每天也在用 ,其实很多可能小问题 ,但是这个方向我觉得是一个很好的在指引说 AI 在所谓的剪辑或者视频创
作里边承担的角色 。 我觉得这个是一个很好的一个信号来启示后边的产品 , 说 AI 在整个的视频创作里边可能会有什么样的一些变化 。
所以从这个点上我是非常欣赏 Descript。 另外其实还有一个比较可能大家接触少的产品 ,也是个英国公司做的 , 叫 veed。io 就是他们的产品 , 这个产品特别其实产品很容易 , 你看到他产品的时候很容易理解 ,但这个产品很有意思的就是他是在跟着用户在成长的产品 。Veed 第一次上线大概在 2019 年, 那个时候大概也没什么用户 , 然后他们的创始人就像在一个一个一个一个
完全跟用户沉浸在同一个环境里边的一个创业者 ,他在 Twitter 上面 ,在很多的社交媒体上面公开了自己所有的创业的这个过程跟经历 , 所以有非常多的用户跟他们去做反馈互动交互 ,他们为自己也做了非常多的迭代 , 大概在去年还是前年的时间开始集成了 AI 的功能 , 做了自己的升级 , 然后整个 ChatGPT 里边第一个那个叫 VideoGPT 就是 Veed 干的 , 对 , 就是他们做的 。
所以这是一个很有意思的非常 agile 的一个团队和产品 ,他们现在他们应该是两年做到了 100 万的 ARR, 然后又用了三年, 现在应该是可能 2000 多万的 ARR,2000 多万美元的 ARR, 所以成长还是很快的 。
但是背后你发现他们的迭代和方向是非常及时的在响应用户的需求 。
这一代的做 AI video 的创业者里面有非常多华人, 你自己最欣赏哪一位 ?
哇 , 这好问题 , 我你让我说哪一位 , 我觉得可能 HayGen 的 Joshua 确实还是一个我觉得很欣赏 , 我觉得值得学习的角色 , 就是他有点像我刚才说到那个 Veed 创始人 ,他其实也在做很多的非常我知道他们的产品其实经过 pivot,但是他们做了非常非常多利于用户跟进市场的这种产品的设计和迭代 , 这个事我觉得是很值得学习 。Maybe 我觉得这也是可能华人创业
者很重要的一个特点或者很重要的一个优势 。
有没有谁现在在做自己的 AI video 产品 ,但是他的产品还没有 , 对 ,他的产品还没发 , 或他发了还没有得到市场足够多的关注 ,但你认为假以时日他和他的产品一定会取得很了不起的成绩 ?
我其实比较期待什么呢 , 我其实比较期待国内可能有更好的或者更不能说更好吧 , 应该说更多的基础的视频模型的出现 , 就是现在可能可灵是比较往前的 ,但是应该有不同的基础路线来去得到更好的视频的结果 , 就在基础上面 。
从这个角度来讲 , 我还蛮期待那个 Sand AI 的 , 就是草月的那个 Sand AI, 我听说他们可能很快会有一些发布 , 对 , 我还是蛮期待的 。
你和他打过交道吗 ?
我还没有直接跟他打过交道 ,但是因为是我们都是工厂的背头企业 , 所以间接会有一些联系 。
你期待的原因是什么呢 ?
就是因为他们用了不同的技术路线 , 这个我可能太细节了不方便公布 ,但是这个不同的技术路线可能会有不一样的好的结果 , 跟 DIT 可能会有一些差异 。
你自己其实在一线应该是非常能够感受到从 Sora 开始 , 然后一系列的各种视频模型就是你追我赶 , 一年之内感觉就百花齐放 , 就是这一年感觉好像过了快十年的那么久的一个演进 , 然后你最佩服哪个团队啊 ?
在视频领域吗 ?
视频大模型 。
可灵 , 我觉得可灵这个团队是真的很厉害 , 我曾经参加过可灵应该是我忘记是哪个版本的一个发布会 ,也跟他们的团队有过一些交流 , 我觉得是很难得的 , 就是在 Sora 之后其实可灵是其实那个时间是蛰伏了一段时间的 , 就是他恰好卡在了他们在研发过程当中出现了一个 Sora,但是他们出来的结果和包括可灵其实出海出海之后你会看到他在国内和
海外的这样的一些个结果和创作者给他们的反馈我觉得是非常难得的 , 就是一个
这里面的差异就是或者这个差异点在哪 , 就是一个做内容的公司 , 一个我们理解的互联网的公司 ,他们用了一个非常短的时间达到了 Sora, 然后把这个 Sora 转化成了一个非常非常多用户喜欢持续在使用的一个基础模型对应的产品 , 这个是非常难得的 。
从你的这个观察里面你觉得为什么他们可以做得那么好 , 当然一方面是快手肯定有钱也有用户数据对吧 , 这些是所有人都知道的 ,有没有什么你观察到的感受到的就他们背后的这种成功秘方 ?
我觉得就是坚持 ,因为其实对于可灵来讲更多的成果应该是来自 Research 的团队 , 产品其实没有那么厚嘛 , 就是给一层就好了 , 所以 Research 上面我觉得他们应该是比较很坚持 , 就是认准了这样的一个技术路线去做了比较大的投入和其实在 Sora 出来之后也没有乱掉阵脚 , 我觉得这个是比较重要的 , 那能够稳定的把自己的好的内容拿出来 , 好的结果拿
出来 , 然后按照自己的节奏去做产品化再去做更新 , 这个是我认为在国内起码可能卡到现在的时间点可能是比较重要的一种一个属性或者一个差异化 。
据你所知可灵内部有哪些灵魂人物是他们成功的关键吗 ?
好问题啊 , 我现在你让我突然想名字我还真不一定想起来了 ,但是确实是有比较关键的两到三个人是在引导整个的这个 Research 的方向 。
都是研究者 。
或者策略上有什么正确的决定呢 ?
你说荣慧你说策略是哪方面的策略 ?
你觉得可灵他们做得很好 , 从你的观察你觉得策略上有什么正确的决定 ? 坚持得到结果是不是比如说是因为前提是选了一个对的路 ?
我觉得技术路线他们选择是押对了 , 这个肯定是对的 , 就是跟 Sora 类似的这种技术路线 , 这肯定是对的 , 如果错掉可能就会没有办法在这么短的时间给到一个这样的结果 。
第二个点 , 如果说策略我觉得可能会是这个可能 maybe 是产品团队的这个功劳 , 我觉得他们很快的去做了国际化 , 去做了全球化 , 把自己的产品延伸到海外, 这一点甚至我自己评价可能都比快手自己的出海要做得好 。
现在因为大厂非常的猛 ,不管是刚才说的快手的可灵还是字节 , 那今天像申树科技或者 Pixverse 这样也做视频模型的创业公司 , 你认为他们还有希望吗 ?
我觉得现在视频的基础模型的能力还没有收敛 , 就他还处在一个发散的阶段 , 可能这个点跟语言模型是比较大的差异 ,在这个状态下面我认为创业团队新的思路 、 新的方向 、 新的成果和大厂的持续不断的高投入的新成果可能都会并行一段时间 ,但最终结局是谁我觉得也不好说 , 我们也无法预料到在春节的时候突然杀出 DeepSeek, 然后大家就
突然国内就收敛了 , 我觉得视频的领域可能还会跑一段时间 ,但最终杀出的是谁 , 我觉得大家都有机会 。
今天也有另外一个说法就是这个字节所到之处片甲不留 , 然后尤其在视频领域 ,不管是剪映 、CapCut 还是最近就上周在这个 Product Hunt 上搒首第一名的这个 Pipit AI 也是字节出的一个视频工具 , 然后我自己看了一下觉得大为震撼 , 感觉确实是又消灭了很多创业公司 。
那你自己对字节这家公司做的各种各样的 AI 视频产品里面 , 你最喜欢的是哪一个 , 最看好的是哪一个 ?
我自己还是觉得极梦是一个挺好的基础 , 极梦有一个很大的我觉得在产品上面很大的尝试 , 很大胆的尝试 , 你会发现当你打开极梦的时候 , 第一屏是一个类似抖音的一个信息流 , 这个是很难得的 , 就是因为他真的是在尝试把 AI 的内容变成一个用户可以拉时长 , 可以持续消费的内容 , 这一点是很重要的 , 那就代表着说极梦从很有可能从一个单纯的生产力
工具变成一个说我生产力工具得到的内容可以很好的跟用户消费 , 我觉得这个是一个很大胆的尝试 ,也有可能因为极梦的其实极梦的负责人也是我认识的朋友 , 所以我觉得他们在这一点上面应该是一个很好的尝试 ,但这个事可能现在就是一个尝试 , 至于说他能不能留得下来或者未来能够变成一个新的抖音 , 我觉得这个可能是一个可能吧 ,但还有很长
的时间要走 。
我们最后来聊一下出海吧 , 我们知道 Motion 那个一直是做海外市场的 , 统招可不可以给我们讲一下你们目前用户量最大的三个市场是哪里 ,以及你们分析是为什么 ?
出海1:00:31
我们现在的用户的分布呢 , 前三我们按照大的区域来分的话 , 第一是巴西 , 巴西是我们最多的用户 , 那第二部分主要就是阿拉伯地区 , 那阿拉伯地区大概可能就是中东海湾的六个国家 , 然后第三部分就是大概第三位就是美国 , 这样的一个分布 。
从我们的观察来讲就是阿拉伯地区会是个意外, 巴西其实我们是有预期的 , 就是巴西事实上是一个现在很多硅谷的创业公司也出海的第一站 , 就他们也很看好巴西用户对于产品的接受 , 对于新事物的这个尝试 , 然后巴西又是一个绝对体量的一个单一大市场 , 然后阿拉伯是我们相对意外的一个市场 , 那其中一个很典型的国家就是阿曼 , 我们我昨天
看了看数据 , 阿曼我们现在可能得有七万多用户了 ,但是阿曼这个国家现在只有四百可能不到五百万人的样子 , 四百大几十万的样子 , 所以我们在这个国家的渗透率其实是非常高的 ,在这个渗透率之下其实也比较巧 , 那二月份的时候那个阿曼的投资管理局和阿曼的教育部邀请我过去做一些交流 , 那他们也很好奇说为什么这样的产品可以有这么
高的渗透 , 那我就去到了他们的这个真实的用户的里边 , 我拜访了大概绝大多数阿曼的这个好的私立跟公立的学校 ,也真实的看到那些老师跟学生在用我们的产品来去赋能或者说用到他们的自己的课堂跟教学里边 , 所以这个点是我还是挺惊喜的 , 那在阿曼其实代表了一个整个阿拉伯地区可能类似的这种用户的场景 , 所以这一部分是我们比
较意外, 那美国我们觉得很合理嘛 , 就是我们大概出海也可能会很重要的会考虑北美的市场 , 所以这是目前三个主要的这个市场的这个分布 。
可以分别说说就是这些市场有什么用户的一些可能大家在国内没有去过或者不是很了解的话 , 大家想不到的一些他们的用户的一些特点吧 ?
巴西是一个用户普遍接受新事物非常快 ,也愿意尝试新事物的一个市场 ,他们会很就用户自己都会很好的去发起一些小的用户的群来去讨论一些新的产品或者新的东西 , 所以巴西的渗透或者说做新增应该是很快的 ,但是巴西用户其实很类似于可能我们看到五年前或者十年前的中国用户 ,他们在付费的习惯上面其实是没有那么好的 , 所以这一点我觉
得是需要考虑到 , 当你去做冷启动 ,maybe 巴西是一个很好的新增的市场 ,但是你要同时考虑三个月之后你的付费和转化这个事要怎么解决 。
阿拉伯的用户呢 , 又是一个用户习惯上面完全不同的群体 ,他们是非常严谨的 ,因为他们有很严肃的这个宗教的这个约束 ,他们很严谨就代表着他们对于新事物的接受或者转化其实是相对谨慎的 ,但反过来恰好是因为这个比较严谨的这个教义 , 压着会让这些人对于新东西 , 就所谓带 AI 属性的东西会非常非常有期待 , 就是这是一个一个人两
面的同时发现的一个现象 , 所以会带来说当你在阿拉伯地区的国家找到一个小切口的时候 , 这个就很类似我们的经历 , 你找到一个小切口的时候会很大程度上放大这一些人对于新产品或者新概念的一个好奇 , 所以增长也会很快 , 那这种增长对我们在阿拉伯国家来讲几乎可能百分之九十都是自然的增长 , 我们做了两到三个 Influencer 的内容 ,但除此之外全部
都是自然增长的流量 , 所以当你找到切口之后, 我觉得阿拉伯国家的自然传播会是一个我们看到的是一个很好的一个数据 。
阿拉伯国家的付费会有点挑战 ,但是你要选择好中东国家 , 就中东的六个国家会好很多 , 对 , 当然美国我觉得大家都是很熟悉了 。
说到这个阿拉伯国家是不是比如说这意味着他们比较谨慎 , 这是不是意味着他们的忠诚度也会比较高 ?
没错 , 就是我们会发现从我们自己的数据也会发现阿拉伯用户的一旦他接受转化之后 ,他的生命周期会是比较长的 。
你刚才也有提到就是去日本做活动 , 之前我们聊天的时候也有聊到台湾嘛 , 这两块就是可以分享一下吗 ?
对 , 日本跟台湾是我们今年开始会发现有一些很好的用户的新增的区域 , 就是这个信号特别明确 , 然后呢 , 我们在日本跟台湾基本上都是也是自然传播 , 那我们会做一些在自然传播之上可能到了万级别用户之后的一些助推 , 比如说我们去做一些 Influencer, 然后我们会通过 Influencer 的内容去影响更多的这个用户 ,但日本跟台湾我觉得这两个市场很相似 ,他们都是用户接
受比较难 , 就是你进入他们会比较难 ,但是一旦进入之后他们的这个忠诚度是非常高的 ,而且他们的付费率也极高 , 就是日本台湾可能加起来可能 1.5 亿左右的人口 , 那这些人口相对难进 ,但是一旦进去之后生命周期非常长 ,而且转化率和付费率是非常好的 。
提到等于是五个市场吧 , 你在这些地方有看到哪些同行 ?
其实蛮多的 , 阿拉伯地区比较少 , 我觉得确实大家可能对阿拉伯地区相对陌生一点 ,但像巴西其实我在很多在硅谷的很多朋友创业其实他们第一站都会选巴西 , 硬巴少很多 , 然后在美国就更多了 , 我觉得日本也是 , 台湾可能相对少一点 , 所以见到朋友的几率非常非常大 。
有的我这次去阿曼有一个老师 , 然后他告诉我他用的 App,他用到 DeepSeek, 然后说他说你另外用什么 ,他给我看 Pixverse, 我觉得蛮好的 , 就是华人的这个产品也渗透到了这个世界各地的用户去 。
你觉得在现在这个时机 , 现在这个时期下就是华人创业者的这个优势是什么呢 ?
我觉得华人可能在我理解在这个方向上面可能有三个优势吧 , 我觉得这三个优势可能比较独特 , 第一就是我认为中国的创业者起码我认识的很多朋友们就是非常接地气 , 大家能够在技术还不成熟的时候通过非常多的方法找到 PMF 的路径来从而能够让自己的这个产品能够快速的增长 , 我觉得这一点是很好的 , 我认为在这儿中国的创业者应该
是比很多美国创业者要好的 , 我觉得这是一个很重要的差异 。 第二个点就是不得不说在我们移动互联网和互联网这种超级卷王的市场里边成长出来的创业者 , 我觉得大家在增长和运营的策略上面这个事应该是个降维打击 , 就是这个无论在世界其他地方的任何创业者这个都是个降维打击 , 所以尤其是在一个新产品冷启动和规模化增长的时候
, 这个事中国创业者可能手里拿着就是一些秘密菜单 。
第三个事情就是我觉得在中国的创业者环境里边我们是有同时有两种人才 , 第一就是我们有很好的研究人员 , 甚至很年轻的研究人员 ,他们不一定是 top 的 ,但是有很多的很年轻的有想法的研究人员 。
第二其实作为创业者来讲很重要的是我们有非常好的全站的工程团队做配合 , 这样的就意味着我们很快的可以把很多新的技术快速的传递到用户那里去 , 这样的这个我觉得这种技术供给其实是不容易在其他的国家发现的 。
我觉得这三点是可能综合起来你会发现华人创业者尤其在 AI 的圈子里边是非常快的能够突飞猛进的找到他们 。
最后一个问题就是你觉得现在这个时代还需要在当地找一个人, 找一个 representative 吗 ?
我会相信 AI, 所以我们自己第一我们没有任何想法需要在任何的国家或者区域去设一个代表 , 第一我们相信 AI 的力量 , 就是我们觉得 AI 应该作为一个员工或者一个实习生能够代表我们去跟用户沟通 , 我们其实也在这么做 。
第二个点我要觉得相信用户的力量 , 就在全球化的这种背景下边 , 你的用户你在当地的用户是一个你最佳的代表 , 你不需要找一个人去代表他们 , 用户自己会有足够的动力 ,有足够的能量来去帮你去做这些国家的拓展 、 反馈 、 迭代等等等 , 我觉得要相信这两个力量 。
今天非常感谢统招的时间 , 我们分享了 Motion 的故事 , 然后也请统招给我们对整个 AI video 这个大领域做了很多的科普和点评 , 那我们再过一年的时间回头再看今天这期内容的时候应该能看出非常多的新意和线索 , 再次谢谢统招 ,也欢迎你再来十字路口 , 拜拜 。
拜拜 , 多谢多谢大家 , 拜拜 。
如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 , 最后欢迎你加入十字路口的会员群 , 我们鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。






