开场0:00
欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在 " 科技与人文的十字路口 ", 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚 AI 时代的 " 积极行动者 ", 和他们一起探索和拥抱新变化 、 新的可能性 。
我是主播 Koji 梁元成 , 联合创办了 " 接旁 "、" 新世相 " 和 " 躺倒 "。 我相信科技 , 尤其是 AI, 会在未来 10 年彻底改变社会 , 赋能人类 。
欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性
。
我是主播 Ronghui, 目前在一家专注科技投资的风险投资机构工作 , 之前在 《 第一财经周刊 》 担任驻硅谷记者 。
大家好 , 欢迎收听这一期的 《 十字路口 》。 上一期呢 , 我们盘点了 Sora 发布以来视频模型的进展 , 今天我们来和 AI 视频工具 Vozo 的创始人周昌印来聊一聊他非常具体的创业故事和个人的经历 。Vozo 呢 , 被形容为 " 用 AI 一键魔改短视频 " 的工具 , 可以为视频重新配音 、 做视频翻译和重剪 , 然后在上线的时候连续 3 天登上 Product Hunt 的榜首 ,也在 6
个月做到了 100 万的 ARR。 据我们所知呢 , 这个 Vozo 的发展经历也有一些很有意思的关键节点和昌印的思考 。
那今天我们就请昌印来跟我们具体地聊一聊这些故事 。 那昌印先跟大家打个招呼吧 , 然后也介绍一下自己 , 介绍一下 Vozo。
初识Vozo1:43
嗯 , 谢谢 Ronghui。 我是周昌印 , 大家可以叫我长音 。 我是 Vozo AI 的 founder 跟 CEO, 大家好 , 然后 Koji 你好 。
Hello。
呃 , 昌印可以详细跟我们介绍一下 Vozo 具体是做什么 , 然后这些功能是怎么样一步一步被开发出来的吗 ?
就 AI 视频工具还挺多的 , 就是为什么选了具体的这个方向 。
对 ,其实 Vozo 在我们公司内部其实花了很长的时间才 、 才难产出生的 。 我们其实在 2021 年的时候最早从团队从美国回到国内 , 然后开始决定做我们内部把它叫做 " 视频表达自由 " 这件事情 。
我们觉得这件事情是非常值得做的事情 。 然后我们从 2021 年开始做了几款产品 ,有成功的 ,也有不太成功的 。
然后我们从 2022 年开始去做了蛮多的生成式 AI 的一些研发的探索 , 相当是一边是从用户的需求出发 , 另外一边从研发出发 。
然后最后在大概 2023 年左右 , 我们大概有一些想法 , 就相当是研发跟需求的一个碰撞的点 。 然后从 2023 年内部开始做一些孵化 , 然后 kill 了几个想法 。
到 2024 年的时候 , 我们自己觉得比较满意的时候 , 把 Vozo 推了出来 。 所以 Vozo 它的定位其实是经过几次不一样的转变 ,但总体来说是希望能够帮助普通人 ,而不是那些视频制作专业的那种剪辑师 。
那普通人就我觉得可能包含的人群可能比较多 , 比如说老师啊 , 包括像一些 product manager, 包括 marketing manager, 虽然他们有时候会做视频 ,但他视频制作能力是比较弱 , 或者要外包 。
那我们是希望是能够让所有的普通人可以用视频去做表达 。 那这件事情其实是非常大的一件事情 。
然后我们最开始的生成式 AI 的模型是非常 aggressive, 就像现在很多大家看到的生成式的视觉大模型一样 。
然后当我们在 2023 年底的时候做了一个转型 , 我们希望切到一个非常真实的场景 , 能帮助用户去解决问题的 。
所以这是我们 2024 年 4 月份 、7 月 、7 月份上线的时候 , 就第一次 Product Hunt 的时候 , 我们把它功能定义成叫 Vozo Rewrite。
那我们是在一定程度上把它难度降低了一点 ,不是说去凭空去生成一个视频 ,而是说你已经有一个视频 ,但是你想改变一个故事 。
那这里有好几种场景 , 一种就是别人已经做了非常 viral 的一些视频 , 比如说一些电影的桥段已经非常非常好了 , 那你可以用它的相同的桥段去讲你的故事 , 可以讲你的品牌故事 ,也可以讲你的这些一些 opinion。
那还有一种就是你做了一个视频 , 比如说你做的是 Thanksgiving 的一个推广 , 然后你可以很轻易地把它改成一个 Christmas 的一个一个推广 , 或者是圣诞节的推推广 。
所以定义成是 Vozo Rewrite, 那它对整个视频剪辑我觉得还是挺有大的一个改变 。 以前的剪辑就是你要去去 cut, 然后去做一些音频视频的处理 ,但是 Vozo Rewrite 基本你要通过简单的一个 prompt, 你就说请把这个视频变成西班牙语 , 或者请让这个视频变得更 exciting 或变得更更有趣 , 那它就会帮你把这个视频的改变给做掉 。
所以这是当时 Vozo 第一个上线的 feature 的功能 , 然后过去半年又经过很多的演化 , 到了现在的 Vozo 一个形态 , 可能功能会更广一些 。
我觉得 Vozo 的功能主要是这些嘛 。 然后我们我们其实有几点我觉得可以可以跟大家聊一下, 就是 Vozo 其实在刚上线是 7 月 20 号跑了第一次 Product Hunt, 然后我们其实中间迭代了好几次 , 然后到了 11 月份的时候又有一个产品很大的一个转变 , 然后我们又上线了新的功能叫 Vozo Translate。
大家其实可以理解 Translate 其实是 Rewrite 里面的一个一个 extension, 就是我们发现大量的用户用 Rewrite 都是用去做 translate, 所以我们就在内部就迭代了非常久 , 找了很多 translate 的用户 , 然后让他们去试用 , 然后做访谈 , 然后我们逐渐把 translate 的功能给打磨出来 。
然后我们自己内部对 translate 非常满意 , 然后我们我们绝大多数用户的续费率也非常高 。 所以这也是我觉得过去从 2024 年 7 月份 , 虽然我们我觉得是下手算是比较晚的 ,但是迭代到现在 2025 年 1 月份 、2 月份左右 , 我觉得产品形态我觉得我们是走对了 。
所以这是大概简单的介绍一下我们现在 Vozo 的产品的状态 。 那这是我们公司的最新的一个产品 。
其实 Vozo 一开始刷屏的时候 , 我第一次看到它是在我们自己的一个会员群里头 ,有一个 TikTok 的产品经理 ,他推荐给大家的 。
然后他推的东西我觉得品质一直都很高 ,他发了我都会看 。 然后当时印象很深的那个刷屏的就有好几个短视频同时是 Vozo 生成出来的 , 都是把电影里面的经典画面改成了一个搞笑的一个桥段 , 就画面没有变 ,但是那个主角他讲的事儿 ,他的口型和他的语气全变了 。
比如说我记得就小李子一开始有一个 《 华尔街之狼 》 的一个经典片段 , 然后就他就还是一本正经的 , 像 《 华尔街之狼 》 一样在那边慷慨激昂的表达 ,但他讲的是一些鸡毛蒜皮的事情 。
就这样的剧烈的冲突 , 然后是熟悉的场景 , 然后有小李子 ,有泰坦尼克 , 然后有哈利波特 , 就你能想到的各种各样的经典画面都被大家玩得很魔性 , 就叫魔改 。
这是一开始出圈的第一波 Vozo, 然后到 11 月的时候再一次打榜 ,而且那一次打榜 Product Hunt 应该还成了月榜第一 。
那个应该就是开始做翻译了 , 就更打个引号的 " 严肃正经 ", 就是把各种语言再换成其他的语言 ,因为效果足够的好 , 所以得到了非常多的好评 。
除了这两个我留下印象的 Vozo 的这个主要的功能和破圈的这个时间点之外, 这昌印有没有一些补充呀 ?
就是帮大家更好地了解 Vozo 是一款什么样的产品 。
嗯 , 现在 Translate 是 Vozo 最主要的用户用的功能 , 所以 Translate 刚刚那个 Koji 提到是 11 月份上线的 。 然后我们在 11 月之后, 到现在三个月 , 我们又引变了另外两个产品 , 一个是 LipSync,其实这三个都是慢慢引续出来 。
我们先做了 Rewrite, 然后发现大部分用户用它来去做 Translate, 然后我们就把 Translate 做得更深 , 然后这个花了我们蛮长的时间 。
然后 Translate 之后又发现有些人他其实并不 translate, 只是想用我们的口型 , 所以我们就把 LipSync 这个功能又做又深化一下 。LipSync 现在是我们一个比较重要的功能 。
那 LipSync 之后呢 ,他们有些用户就说我我不想 LipSync 我的 video, 我要 LipSync 我的 photo。 那这件事就很有趣 , 我们开始本来不想做这件事 ,因为我觉得市面上做 photo LipSync 的功能已经有一些了 , 为什么还要我做 。
然后我们就去试了一下各种各样的 photo LipSync 的的工具 , 然后大概理解就是为什么他们不满意他们的结果 , 然后我们把它重新做了一遍 photo LipSync。
那 photo LipSync 我们大概是
11 月左右上线的 , 然后用户增长挺快的 , 可能我们的效果确实还还蛮不错 。 所以这是我们后面加的两个新的功能 。
然后到 3 月份 , 可以简单的预告一下, 会有一个更大的东西会 release, 现在还不能说 。
这个更大的东西它会是像一开始的这个 Rewrite, 就是从视觉上给大家震撼 , 还是像 Translate 或者这个 LipSync, 它是从功能上做得比竞争对手都好 ,是哪个方向可以讲一讲 ?
都都有 。 它不像是 Rewrite,Rewrite 是从来没有这么东西的 。 我们我们做了一个 Rewrite 这件事情 , 它还是一个有需求 、 现在已有需求的一个一个功能 ,但是我们做得比较不一样 , 会更好用一些 。
你会不会觉得其实 Vozo, 比如说后面做 Translate 或者 LipSync, 就如果一开始推的就是 Translate 或者 LipSync,有可能反而还推不起来 ,而是一开始就是选了一个大家没见过的东西 , 然后它有一种就是猎奇的这样的短视频 , 就是破圈 , 让 Vozo 走进了很多人的视野 。
再之后你们把自己的技术实力加上去解决别人解决的没有那么好的 , 别人 80 分你们解决到 90 分 。
对 ,有没有这么一个过程 ? 就是如果尝到这个甜头的话 , 你觉得后面还会就是有留一些产品或营销的经历 , 再去干一开始像 Rewrite。
包括今天 Pika 其实反反复复就在做这个事儿嘛 , 就每一个月都会推几个特效出来 。 对 , 这个是之后的一些选择吗 ?
对 , 我觉得那路径真的非常重要 。 就是第一个功能是推什么 , 大家对你的 first impression 是什么 。 毕竟我我觉得在在现在 Gen AI 的时代 , 我觉得创新其实是最最主要的推广手段嘛 。
所以你你肯定不要让别人觉得你是个 Me Too, 对吧 ? 而且 Me Too 对内部团队也很难交代 。 就是对一个创新团队来说 , 你你是很难一直靠做 Me Too,因为团队都会没有士气 。
当然了 , 就是如果你这团队不是个创新团队 , 当然无所谓了 , 你本来就是 Me Too 团队 , 你就就这么做 。
但是 Me Too 的团队 , 我觉得在现在的 Gen AI 时代是不可能成功的 。 这是我的 bias。 那如果是一个创新团队 , 你肯定要不停地不断地去有一个新的创新东西往外推 。
但是刚跟前面我们讲有一定的悖论啊 , 就是我们又要抓需求 , 又要有创新点 , 那就刚才路径就很重要 。
就你要有一个创新品牌出去 , 然后从 Rewrite 再再切回到做 Translate, 做得比正常 Translate 好 。Translate 又是一个我要 , 就是你肯定是一个很真实的一个一个需求的市场 , 然后我要它再把它做细 , 再从 Translate 去慢慢去拓展 。
我我觉得这是一个对技术演变 、 对市场的拓展都是比较比较好的一个路径 , 可能不是每个商业都存在这个路径 ,但对 AI video 来说 , 我觉得比较 lucky, 就是存在这么一个不停地去拓圈的一个一个路径 。
所以这这是我们在做的 。 但但我知道有些公司可能不一定这么做 , 可能就是憋一个大招 , 然后也不讲任何路径 , 然后就就爆火 ,也也也也存在 。
但我们走的是 , 我觉得是对 AI video 从用户需求出发的合理的路径 。 这是我们现在在做的事情 。
就这一批各种各样的 AI video 公司啊 , 从 Pika 到 Luma, 然后从 HeyGen 再到比如说 Vigo、Opus Clip, 就有没有哪个公司或哪些公司是你自己特别喜欢 、 特别欣赏的 ?
可以分享一下这背后的一些原因 , 就可能有你看到大家没看到 , 或者有你认同大家不认同的点 。
我我比较喜欢 HeyGen, 就是我觉得他们非常 focus 去做他们想做的 , 无论从许多角度来说 ,他觉得要替代 camera,他一直在做这件事情 。
从从很早我记得他 21 年就一直在做这件事情 , 中间踩了很多坑 , 然后最后慢慢做出来 。 无论他搬去美国这件事情怎么说 ,但我觉得从产品以及从技术推推技术这块 , 我觉得做得挺好的 。
其他很多公司啊 , 就是像 ,但很多公司我可能了解会少一点 , 比如说 Dzine, 就就是另外一个朋友 ,他做 image 相关的 , 我觉得他们也产品做得非常好 。
所以可能我我可能比较喜欢把产品做得特别好的公司 , 我觉得 Dzine 跟 HeyGen 都不错 。
哎 , 我知道 Vozo 其实一直是没有花营销预算啊 , 只是做了两次 Product Hunt 的打榜 , 就做到了今天 100 万美金的年收入 。
Product Hunt打榜13:31
那你会认为这个 Product 打榜对你们带来的帮助是有多大呀 ? 是一般大 、 非常大还是巨大 ?
我觉得还挺大的 。 我觉得从两方面看 , 就第一个我我我非常喜欢 Product Hunt,其实我在 15 年的时候我就做过第一次 Product Hunt, 那时候的氛围是像现在不太一样 ,但我觉得它核心的价值是 , 当你去做 Product Hunt 的打榜的时候 , 我觉得你真的会去想你是什么样的产品 , 怎么样一句话可以说清楚 , 对吧 ?
我我觉得这个其实对产品的打码是我觉得是最有用的 。 我觉得我觉得 Product Hunt 最大的价值其实我觉得其实在这个地方 。
然后它给我们价值是我们完成了比较简单的完成了冷启动 , 虽然带进来的流量没有特别大 , 大概是对我们来说大概每个月每天大概是 1,000 左右 , 或我们经过一些发酵之后 1,000 左右 ,但是 1,000 左右足够我们做产品的 PMF 的迭代 , 所以相当于是冷启动通过一次跟两次的 Product Hunt 就完成了 。
我觉得这个其实是非常有价值 。
哎 , 现在其实在 PH 上打榜有非常多的技巧嘛 ,也有很多这个运营秘技 , 对吧 ? 我自己在各种群里面也看到天天有人在拉票 , 所以你会认为这个打榜成功啊 , 成功定义就是比如说冲到日榜第一 , 这里面有多少是运营的成分 ,有多少是自己产品本身要做得好的成分呀 ?
这个占比是什么 ?
对 , 这就是我我开始说的 , 就就跟 15 年的时候非常大的差别 。 那时候没有没有这种东西 。 现在的话 , 我我觉得 Product Hunt 本身打榜到第一这件事情 , 我觉得跟产品关系没那么大 。
就是如果你懂运营 , 你愿意去推 , 你都是可以把它推到 , 可能难说 top one 能 top 推到 top three 应该是没有问题的 。
我我但我觉得这是一方面 , 就是你把排名排到第一或第二 、 第三 ,不意味着你这 Product Hunt 成功了 , 对吧 ? 你成功不成功取决于就是这个 Product Hunt 最后对你的产品的 PMF 产生了帮助 。
所以我我可以我觉得不 surprise,有很多团队他可能打榜到第一或第二 ,但最后产品可能没有没有形成 。 所以回过来刚才回到 Koji 的问题 , 就是打榜成功或不成功 , 我觉得是运营的事情 。
只是 Product Hunt 的打榜成功之后, 能不能带来真正商业的价值 , 那我觉得这是产品的问题 。
哎 , 除了 Product Hunt 你们有在其他的地方有做这种露出吗 ?
我们几乎没有做过 。 我们中间有一些机会要做 ,但是我们相对比较克制 。 因为 Product Hunt 刚刚回来 ,Product Hunt 其实给了我们足够的流量 , 我们我觉得还比较珍惜这段时间 , 半年的时间去去聚焦 。
然后另外不完全就是我们刚开始的时候 , 流量进来之后 ,其实收到很多用户的一些一些反馈 , 然后我们觉得这些反馈没有解决之前 ,其实再进一步推广去意义不是非常大 。
然后这些反馈其实非常多 。 我们中间我觉得做对了几件事情 , 就是我们很早就开了 intercom, 比较熟悉的人知道 intercom 像在网页上, 你就用户可以直接跟你聊 , 我们几个主要人就会在上面一直聊一直聊 , 然后知道用户到底想要什么 ,不要什么 , 哪地方不满意 。
所以我们就一直迭代一迭代 , 大概是每个星期可能发一版两版 ,不停地去去迭代它 。 所以我觉得在在那个时间点 , 我们就没有太在意推广的事情 ,但这可能也不一定对啊 , 就是只是我们这个做法 , 可能有些团队他更早去做推广 , 可能增长更快一点 。
但但这是我的观点 , 就是推广早一个月晚一个月 ,其实没有那么重要 ,PMF 走对更重要一点 。
会有什么时刻觉得 PMF 找到了吗 ?
我觉得是一种感觉 , 就是我我们当有如果定量的话 , 我们会在意有两个指 , 就是用户的续费满意度 ,以及跟最后的绝对值 , 就是我们的 ARR 是多少 。
我们那时候比较粗暴 , 就是我定了个目标 , 就想先达到一个 MAR 再说 , 然后也是比较幸运 , 就是没有通过推广也刚好达到了 。
我我觉得可能这可能是一个是个运气 ,但但是跟当初的判断差不多 。 另外一个就是续费率 , 我觉得 reasonable, 就是比如说我们进来 100 个付费的用户 , 我觉得如果他用的对产品满意的话 , 我觉得应该有 80 个人会留下 。
但这个判断是我自己的 , 就是因为我我知道有 20 个人他可能因为自己的业务的原因可能就不做了 , 那我会有个判断 。
那这个续费率达到了 , 我觉得我们产品算是算是算是合格 。 所以这两方面加在一起 , 就变成我们自己内部的一个一个 goal。
我觉得这好处就是我们有清晰的 goal 的话 , 就是做事情比较比较有劲 , 每个阶段有一个 goal 或两个 goal, 我们就不要同时在做这件事情 , 又再说我有五个渠道要去推广 。
所以我们尽量把它给分开一点 。
刚才你有提到 24 年的 7 月份才正式的上 Vozo 第一个版本 , 就是 Rewrite, 就把一个已有的视频传上去 , 然后去魔改它 , 那个确实也是一炮而红 。
然后你也提到入场比较晚 , 我比较想知道的就是在这个时候才做 , 确实我觉得是比很多人这个时间晚了一点 。
研究遇挫18:45
那你觉得这个是因为在那个时候技术才成熟呢 , 还是因为就是别的原因呢 ?
我觉得都有 。 我觉得别的原因更多一点 , 我们自己的原因更多一点 。 后来其实我们内部也会做一些复盘 , 我们其实在做 AI video 这赛道非常早 , 我们 21 年成立的时候就就在做这个东西 , 虽然 21 年的时候可能更传统的 CV, 然后其实 22 年的时候 , 我们我们其实在做一些深度的东西 , 然后 22 年的时候其实我们非常非常早的 , 可能比一般公司更早遇见
到生成式 AI 的事情 。 所以我们当时还做了一个早期公司 , 非常少见的 ,其实我们其实在对跟外面一个很著名的我以前的一个老师一起成立的一个联合实验室 ,其实很大的一个投入去做一些很基础性的研究 , 做一些前沿的研究 。
而且在那个时候其实我们几乎没有营收 , 所以是很很夸张的一件事情 。 然后那个研发到 23 年初的时候就特别 exciting, 就开始有一些生成式视频的模型出来 。
那个时候差不多是两个星期到三个星期 , 我们就迭代一个模型 , 迭代一个模型 , 特别 exciting。 但那个时候其实走错了一点路 , 就是我们那时候其实同时在做两件事情 , 一件是我们原来的产品在做推广 ,在做营收 , 同时呢我们在做很基础的研发 , 觉得这研发可能是将来很好的一个 future 的一个一个机会点 。
当时有个很好的 thesis 就是说我们从两边出发 , 一边是非常抓地气的做应用 , 另外一边是非常高大上去做研究 , 我们希望中间某一天会汇合 。
但这个其实从初创公司来说 , 我觉得现在回头看其实是比较错误的一个一个想法 。 我们所以我们到 23 年的时候就出现一种状态 , 就是我们想做一个产品 ,但这个产品的 feature 并不能被我们的基础模型给支持 ,因为基础模型的研究它是按它自己的方式去往前推 , 堆搭模型 , 然后基础模型出来的效果很有趣 , 非常 exciting,但那些东西不能被产品化 , 都有各种各
样的这种抽卡呀 , 各种奇怪的东西 。 所以我们 23 年就扯了一年, 就是好像我们很激进在做研究 ,也在很激进的去去抓应用 ,但这两边就是就就不能去被被重叠 。
就是没有 synergy, 没有形成合力 , 然后反而互相觉得很遗憾 , 你帮不上我 , 我帮不上你 。
对对 , 特别特别就是研发的人也很纠结 , 就他觉得我出了个模型 , 你为什么不能把我产品化 , 然后产品说我要这个东西 , 为什么你模型没给我 。
那最后呢 , 这到底是谁谁这个胜出 ?
最后是左边做做应用 , 做做需求的胜出 。 所以我们到 23 年 10 月份的时候 , 我们就把我们自己的模型做了个 PR 给发掉 ,但其实那 PR 的意味就是说我们不再往下推了 。
虽然那个 PR 上面不这么说 ,但相当于是我们做了个 announcement, 我们出了一个叫 HiveNet 的一个一个一个多模态的模型 。 但从那以后, 我们的研发团队所有的研发立项都会从产品出发 , 就产品这边必须 approve 你 , 你才会去做 。
虽然我们理论上留了 20% 的精力给我们那些 research 去做一些他们想做的事情 ,但从 23 年 10 月份之后, 我们所有的研发立项都会从产品出发去做那些事情 。
哎 ,但这样的 researcher 会因此而离职吗 ? 觉得这里不再是一开始想来的一个这样的做研究的地方了 ?
其实其实不会 ,因为经过前面一年多 ,其实对大量的 researcher 来说 ,他希望自己的 research 的东西能够进到产品里面 ,因为他看到我们的其他另外一个产品用户量非常大 ,但是他的东西一直进不了这个这个产品线 。
但这可能跟 research 有关 , 就是我们比较运气 , 就是跟我们一起做的这几个 researcher,他非常在意他的研发能被非常多人去用 。
所以现在每一次 Vozo 的用户量增长 , 然后用户的反馈很好的时候 , 那些 researcher 就非常开心 。 所以我觉得这就变成一个比较有趣的一个一个一个循环 。
哎 , 昌印现在方便问一问 , 就是 Vozo 融资到什么程度 , 然后团队有怎样的规模 , 这里面研究的产品的分别占多少吗 ?
对 , 我们现我们现在融资在 AE Run 的之前 , 主要是新兴资本跟红杉种子 , 我们一共大概后面还有一些个人投资者加在一起 , 大约会有 600 万到 700 万美金的样子 。
所以我们的资金效率可能还算是比较高 ,因为我们中期迭代过很多产品 。
非常高了 , 从 21 年到 25 年,4 年就是只有 6 个 million, 这非常非常高 。
对 , 我们从 22 年、23 年开始 , 我们之前有些产品还蛮成功的 , 就是也会有营收 。 所以我们我们相对比较 healthy, 就是我们整个团队现在的现金流是正的 , 所以压力不会那么大 。
所以这个我觉得也是一个对后来想就开始没有没有意识到 ,但后来一旦 break even 之后, 对整个团队的心态有很好的帮助 。
然后我们现在团队现在规模还蛮大 , 我们现在有四十几个人 ,其实挺多的 , 研发可能会占 70% 多 , 所以非常 heavy 的 research 在在做 。
哎 , 我比较好奇 , 就是四十几个人, 然后一个 million 的 ARR, 这怎么能 break even,是因为有其他的产品还在持续的贡献 revenue 是吗 ?
Vozo 不是我们现在营收的主要产品 , 虽然是我花最多精力去做的事情 。 我们之前有两个 app,在国内呢叫做说的提词器 app,在海外叫做 blink app。
那这两个其实也是围绕帮助创作者能更容易去讲视频的 ,但它背后的技术更是传统一代的 CV、NLP 的一些技术 。
所以那边有大概有 6 个 million 的 ARR 的样子 , 所以基本那个产品就可以保证我们现在是现金流是 break even 的 。
所以我们现在 Vozo 所有赚的 ARR 都是我们的利润 。
哎 , 我想想 , 我觉得还挺有意思的是 , 那你们现在是一个应用工厂的模式吗 ?
好问题 , 我们开始其实没想好 , 我们开始开始做的时候就说我是围绕视频表达自由这件事情 , 所以我们就抓用户的需求就去做了那款我们的 app。
然后后来我们觉得这个 app 的能力非常非常受限 ,因为它是在传统的这种 CV 的方法来做 , 所以我们又去做了生成式 AI 的东西 。
所以我们中间很长一段时间现在是两个产品在做 , 这也是我们团队非常痛苦的点 , 就是有两个平行东西在做 。
但是慢慢的过了一段时间 , 我们现在找到很好的方法把它们融合在一起 , 所以再过一小段时间 , 你会发现这两个产品其实会变成了同一个产品 , 然后 feature 会互相共享 , 那最终就是会服务所有的 content creator 以及各个公司的 marketing manager 或者是一些 e-commerce 的人, 反正他们都是用视频来去做做讲讲他的 video story 这件事情 。
是找到了什么方法可以让他们很好的结合起来 ?
这两个产品之间的用户重叠大概是 20% 到 30% 左右 , 定位其实是这样的 , 就 app 这边其实偏 C 端 , 所以一些 KOL、KOC 以及小量的 SMB, 然后我们 Vozo 这边呢主要是一些 enterprise 里面的 marketing 的 department 以及少量的 SMB, 所以我们在 SMB 这边是有比较多的重叠 。
所以这两个产品会被合并之后呢 , 会互相一些导流以及一些功能的互相的叠的互相的共享 , 那会变成同一个会员系统 , 然后大家你如果你买了我们的 Vozo 也可以同时享用我们 app 里面的功能 。
如果你买了 app 加上一些点数 , 你可以用 Vozo 的功能 , 所以这两边的用户就会打通 。 所以我们其实还蛮期待最后 ,但最后的名字都会叫 Vozo,因为整个团队更喜欢 Vozo 这个名字 。
为什么叫 Vozo 这个名字呢 ?
这个名字是 GPT 帮我们起的 , 很有意思 , 就是这个是让我让我非常 impressed。 我们想找一个非常短的词 , 跟 video 跟 voice 有关 ,因为我们做的东西其实都 talking video, 就都是会有人在说话 ,有人在里面去展现 , 所以 voice 或 video, 然后我们希望 ,但这是我们的一个愿望 , 就是将来每一个人都会有自己的一个 zone, 就是你每天会讲很多故事 , 就像你写 blog 一样 , 你会有很多视频去讲你的
想法 , 你的你的情绪 , 然后你就会有自己的一个一个一个 domain, 一个 zone, 然后我们就把它叫做 Vozo。 那这是我们的一个一个想法 ,但是我们选它最主要原因是我们都喜欢这个发音又短 , 所以 Vozo.ai 一共就 6 个字母 , 然后非常难难上口 , 所以我们取了这个名字 。
其实 Vozo 做的时候 Sora 已经发布了 , 就是做 Vozo 和 Sora 发布之间有什么关系吗 ? 包括就这一年啊 , 就是整个其实视频模型还是发生了非常多的变化 。
Sora与模型壁垒27:59
我们上一期正好就是这个和 Luma 的产品经理在聊 20 个问题来带大家复盘 , 从 Sora 到今天 , 整好一年啊 , 这一年整个视频模型领域发生的种种的事情 。
对 , 就这里面的这些事情和 Vozo 之间有哪些和你们有直接的关系 ,有哪些有间接的关系 , 可不可以请你分享一下 ?
Sora 跟我们关系会比较小一点 , 我们在 23 年, 就我刚刚提到我们 23 年 10 月份的时候做了一个新闻发布 , 把我们之前做的那个视觉模型给发掉 。
所以我们那个视觉模型我印象中是在 runway V2 之前发的 , 所以它在 runway 的第一代之后 ,但是通过做那那个项目 , 我我我大概比较明确的自己 ,因为做过一次才知道 , 就是视觉大模型做视频生成 , 它的瓶颈会在什么地方 , 然后我估计它大约会什么时候会被突破 , 比如说可控性啊 , 一致性 , 然后以及它的算力成本能够一帧花多少钱 , 然后大概会多
少时间会降到对一般的 content creator 可以接受 , 比如说我生成个一分钟的视频 , 你付的钱不要收我 , 比如说 200 美金 、300 美金 , 那就会有这些判断 。
然后那也是那个判断之后, 我我我决定就不去再推视觉大模型 ,但是还有别的因素啊 ,因为要做这件事情要很多很多钱 , 我我我肯定不是一个很擅长融资的人, 所以我觉得这个我我应该做不了这件事情 。
然后我就去做更像是一个 AI
enhance 或 AI assistant 的一个视频创作 ,而不是直接输入文本去生成视频 。 我觉得那个在比较短的一两年里面其实很难有大的突破 , 这是一个 。
然后第二个 , 我觉得那个突破不会成为一个壁垒 , 这其实后面被验证了 , 就是虽然 Sora 刚出来的时候大家就哇好厉害 , 就是比其他东西甩甩出好几条街 , 那时候我们就会预期 , 就是我觉得再过三五个月 Google 的就肯定就出来了 ,因为这个其实大家都会推进 , 然后最后就是如期发生 。
然后你看中国现在有好多公司都能做这个视觉大模型的东西 , 所以像这种就变成我我我个人的一个判断 , 就是这种通用的 , 无论是大语言模型还是音频模型还是视觉的多模态模型 , 如果它是通用的 , 将来都不会成为壁垒 ,因为也会有开源 ,有各种各样方式去做 。
所以我们的创业就尽量会远离它 。 我们做的我们自己做的所有的模型都是因为我们的应用有特殊性 , 我们会针对我们 , 比如说我们做翻译 , 然后翻译过程中对语气的保持会有不一样的要求 , 所以我们会针对翻译去做我们的声音克隆 、 语音以及 LipSync 的所有的模型 。
我们我们是围绕真正的需求去在这个锤子里面去迭代我们的模型 , 然后外面的基座模型我们能用都会去用它 。
我其实觉得你们应该做了非常多为了满足好用户的体验而做的技术上的调整突破 , 从一开始的提词器到现在你说这个翻译的语气等等等等啊 ,但我感觉这个是不是就是其实用户是感知不太到的 , 或者甚至行业其实也都没有特别感知到这背后的努力 。
对 , 我觉得客户真的去用一下会感到 , 比如说我们现在做翻译 , 翻译如果大家去试了一下就会发现 , 就是翻译有很多难的地方 。
举例子说 , 如果你把中文翻译成德语 , 它两边的长度是差别特别大的 。 德语是我现在了解下来最繁琐的一个语言 , 就是你可能中文讲了 5 秒钟 , 德语可能讲 15 秒钟 , 那在同一个视频里面 ,在图像没有大的改变的情况下, 两边就会有异步 。
那比如说这边 5 秒钟讲完 , 那嘴巴是粘还是不粘呢 ? 对吧 , 你不能嘴巴闭上 15 秒钟 , 那这个东西怎么去解决 ?
那就很多解决方法 , 就是你在翻译的时候要能够尽量的在时长上找到一个比较匹配的翻译 , 然后呢又跟原来的语气语调要比较接近 , 同时要还能 twist 的你的口型能够变成一个合理的一个 , 所以它其实变成一个优化问题 。
然后呢 , 各个语言有不同的一些语言的一些特色 , 就比如说我举例 , 举个可能都不用语言 , 就是有时候你拍一个 1 分钟的短视频 , 或者是 15 秒钟短视频 , 讲了个品牌故事 , 品牌可能是个单词 , 这单词如果你你不知道它 , 你就会把它翻译掉 , 那可能就会翻译错了 。
那如果你让人去翻译 , 你可以告诉他说啊 , 这个我的 agent 这个是我的品牌 , 品牌不要翻错了 , 我的品牌是个 happy 的品牌 , 你不要把它翻译成悲伤的 。
但是如果你让机器翻译 , 一般机器是不知道 , 它就直接翻掉了 ,因为它没有上下文 。 那你得有一个合理的方式去告诉这翻译去调整它 , 那这背后就会又会把刚刚那问题变得更复杂 。
然后口型也是一样 , 就是不同语言的口型 , 当在口型这我可能还再说一下那个语那个情感 , 像一般的声音克隆 , 就是比如说 Koji 或者是 Ronghui, 你讲讲个 1 分钟 , 我就把你 1 分钟的音色给学过来 ,但翻译不一样 。
翻译其实它希望每一句话的情感是被复刻的 , 对吧 , 比如说你这句话是瓶颈 , 下一句话是激动 , 那最好是一句话对一句话能够情感复刻的比较好 。
那但是呢 , 你翻译又不能一句对一句的翻 , 你一句对一句的翻 , 你就翻译的不好了 , 你没有上下文 。
所以你既要经过上下文 , 又要有对张的关系 , 然后又要能够 copy 它的这个情感 。 所以这也是为什么就之前很多机方在一般行业眼中, 就是机方肯定是不行的 , 只要你在意它 1.0 quality, 你都会雇一个团队 ,1 分钟花 50 美金 、100 美金帮你翻 。
但其实如果把这些技术都解的挺好的话 , 我觉得它其实会超过一般的人类的翻译 ,但很专家的你还是会翻的更好一点 。
但我觉得这件事情再过个一年两年, 我觉得这个机方可能会比人类专家可能会翻译的更好一点 。 所以中间有很多 , 如果你是一个电商 , 然后你要去翻译一个你的推广视频 , 基本上你输进去一个视频 , 出来一个视频 , 你可以保持它的语气 、 语调 、 情感 。
我们中间还最近还做了一些短剧 , 短剧的翻译也是非常非常 challenge,因为短剧表情太太夸张了 , 就是有时候啊啊啊 , 然后就很激动拍桌子 , 你怎么样可以把这个情绪情调尽量能够保持下来 , 就会有很多 challenge。
所以我们我们其实在慢慢在在 take 一些更更难的问题 , 最开始是一些简单的 presentation, 那现在慢慢开始可以去做一些短句的翻译 。
其实上面提到这些问题 , 每一个我感觉都很有意思 ,而且被解决掉了之后应该都有很大的价值 , 很多人都需要 。
那你们在解决这些问题的时候 ,是用工程上的方式去解决呢 , 还是你们就是在用什么样的方式去解决呢 ?
这个有可以讲到什么程度吗 ?
都都会有 , 就是会有啊 , 研发的手段 , 比如说模型的提升 ,也会有些技术手段 , 就是工程的手段 ,也会有些产品的手段 。
一般我们优先就会产品手段 , 就是比如说一个弹窗告诉用户你这边要点一下, 就就就解决其实是最好的 。
然后其次是一些技术上, 比如刚才说的那些优化 , 比如说你既要拉长 , 既要既要对齐 , 又要尽量能够句子长度不变 , 那这其实是一个优化问题 。
你可以写一个算法 , 然后你就可以去做一些优化 。 那那这是偏偏工程的 。 然后有一些 , 比如说语气的复刻 , 怎么样可以非常快的一句话对一句话语句复刻 , 那就会有那个模型的迭代 。
所以这三层都会有 , 所以是挺有趣的 。 当你发现问题的时候 , 你你到底用哪个去解它 , 哪些东西是你单情的 workaround, 哪些是你觉得是将来一定要做的东西 。
所以刚刚那个语气就是一个很好的一个一个一个地方 。 我们最开始会给一些用户的一些 interaction, 比如说你你可以把这块加强一点 , 让用户让用户去控制 ,但这个其实非常难 , 就用户特别是翻译 , 很多人领第二种语都他他都听不懂 。
然后呢 , 那那就会用用模型去帮他去直接做对 , 那这个慢慢就会往这边去做 。 然后刚刚又提到一个很有趣的问题 , 就是比如说把中文翻译成阿拉伯语 , 对吧 , 作为用户来说 , 你也不知道他翻的对不对 , 那这个事情怎么办 , 对吧 ?
如果你找人去翻译 , 你付了他钱跟他签合同 ,他翻错了 , 你到时候可以找他 ,但是作为 SaaS 来说 , 你你到时候是不能找我的 。
那那怎么办 ? 所以我们会给一些很有趣的 feature, 我们有个 feature 叫做 back translation, 就是你翻过去之后, 你就说请你翻翻回来 , 然后你就翻回来可以对一下, 哎 , 跟原来意思差不多 , 那那肯定是对了 。
哦 , 这个很有意思 。 就我先翻成阿拉伯语 , 再把阿拉伯语翻成中文 , 如果中文我觉得是对的 , 那就说明这有点像之前那个快乐大本营的那个游戏 , 就是一个人蒙着眼睛给另一个人讲 , 然后再往前传递 。
对 , 否则的话这问题很难解 。 就你怎么说服用户 , 特别是用户 , 如果他发的是很重要的 marketing 的视频 ,他他很难去点这个 button,他不知道你翻的对不对 。
其实刚才有提到 Sora 的发布啊 , 就视觉模型对你们的这个做 Vozo 的影响其实不太大 ,但感觉过去这一年, 其实大家说到 AI 视频都觉得是视觉模型在突飞猛进啊 , 各种新闻都和它有关 , 各种这个炸场的产品也都和它有关 。
那就是过去一年有哪些技术突破 , 让 Vozo 比如说从不可能变成可能 , 或者从原来只能做 60 分做到 80 分 、90 分 , 就在过去一年有哪些技术研究上的突破 ,是达到了刚才说的这种吗 ?
对 ,其实都都相关的 , 就是比如说无论是那个 Sora 的那个 DIT 的整个架构是什么样子 , 包括跟我们这边直接相关 , 比如说声音的复刻 , 然后嘴型的生成 , 嘴型生成如果如果对这个领域比较熟悉的话 , 大家知道就比较早 , 比如四五年之前是有老的一套技术方案 , 可能用 GAN 啊 , 用别的方案去做生成 , 然后它清晰度很低 , 然后真实度就会
比较差 。 然后这一波的革命之后, 我们就会用 Transformer 去去做口型的生成 , 然后最近又开始有新的演变 , 比如说有那个高斯破件 , 然后高斯破件可以去生成的更快 , 然后质量会更好 。
然后我们就会在这之上, 就是我但我虽然我们不会去做非常底层的时候 , 我们推出一个新的非 Transformer 的东西 ,但是我们会在这之上就会把比如说我们口型的生成 , 我们现在翻译之后也可以对口型做改变嘛 。
我们现在对口型的 LipSync 应该是行业可能是做的最好的之一 , 就这个 。 那那这个其实也是受益背后的 , 我们有很多数据 , 然后我们也对基于现在的最新的技术的跟进 。
总之我们也会用一些视频生成的模型 , 比如说在我们最新发布的一个新的 feature 里面 , 就是我们会让你的一个一个图片能够动起来 , 然后同时让它去说话 。
那这个其实是一个视觉的大模型去做生成 , 只是我们的大模型会不太一样一点 , 就是把一张照片动起来 , 那有很多公司在做 , 怎么样可以让做的更快 , 然后它动起来的时候跟它的说话能够能够比较和谐 。
那那就是也是在视频生成这个整个行业往前推的时候 , 我们尽量能够踩在金板上, 然后能够跟着它这个这个势头一起走 , 把原来不能解决的用户问题给解决了 。
所以回到刚刚问题 , 比如说快速的一句话的 voice clone, 非常真实的口型 、 面部以及整部画面的生成 ,其实都是过去一年半到两年才渐渐发生的事情 , 可能有一些可能都是过去半年才发生的事情 。
那你怎么看另外一个观点哈 , 就是今天视觉模型其实在突飞猛进嘛 , 就是我们录播客的前两天 , 就是 Google 刚发了 VO2,也是大家对它的评价非常高 。
那所以有一个观点是认为这个是模型有可能到最后即产品 , 或者模型的进化有可能会吞没掉一些之前大家在功能上雕花的这些部分 。
对 , 你会怎么看就是这样的一个未来 ?
对 , 我我觉得一定会的 , 就是它是一个是一辆大车嘛 。 所以我我觉得对于做产品人来说 , 就是你得离这个 , 就像我们内部的一个一个准则 , 就是如果它是一个标准模型 ,不要去碰它 , 我们要做离应用很近的不一样的东西 。
我觉得不一样的东西其实是非常稳固的 。 如果你往回看看 , 比如说 Midjourney, 对吧 , 你说纹纹身图 , 它其实它整个大的整个生成的框架应该大差不差 ,但是从从从商业上可能很多人已经习惯于 Midjourney, 然后 Midjourney 本身在技术上有很多细的 tuning, 那这个 tuning 其实是会带来非常大的差别的 。在视频这边也是一样 ,也许将来会有一个类似 DeepSeek 一样的更好用的一个视觉的模
型 ,但是当你把它 apply 到你的应用的时候 , 差别是是巨大的 。 这个其实在过去无论在谷歌引进 , 还有我之前的其他创业 ,以及包括 Midjourney 那个 David,他之前上一家创业也是这样 , 就是同样的技术的这个时代 , 它就可以做的比别人好很多 。
那这个我觉得是应用这边的技术人该做的事情 。 我觉得可能不用太担心 ,有一个模型就把所有事情干掉了 ,不需要任何的边角的这个技术空间 , 那我觉得那是不可能的 。
有没有什么事情是就是在过去你看到的技术突破带来的新的产品机会 ,但是因为你们太忙了 , 或者你们的方向不在那边而没有做的 , 这可以给其他正在创业选方向的朋友们一些指导 , 一些启发 ?
这个不敢说 ,因为这个真的才去做了 , 去去做调研了才才知道 。 但我自己个人会对有些东西会有兴趣 ,因为我之前做过眼镜嘛 , 我我觉得眼镜加一个 low latency 的 LM 会很有意思的一件事情 ,有有很有很大的想象空间 。
但这可能是又又回到我之前的错误 ,有可能因为我对这个东西非常非非常 exciting, 那真正要去做的呢 , 还是要去做做商业的做分析 。
但是从技术上来说 , 原来我们在做谷歌眼镜想做的很多事情 , 当时当时做不了 , 现在都可以做了 。
中间有个最大的谷歌眼镜 , 就是让我非常白眼的一件事情 , 就是那时候也是也是 Circle Brain 想做的事情 , 就是谷歌眼镜让你更聪明 。
它的说法是说 , 比如说容慧问我个问题 , 这问题我其实是回答不上来的 ,但它就很快的告诉我 , 快到我以为是我自己想出来的 。
那那这个就我觉得就对于像我这样的 , 我我愿意付钱去去买它 。
你前面说成立了一个实验室的那一点 , 就我觉得这个可能对初创公司来讲还是相对比较少见的 , 可以讲讲当时的这个当时想要做的事情 , 然后这个实验室对这个事情的帮助吗 ?
Google X往事43:40
以及因为我知道你之前是 Google X 出来的 , 然后就是做这个实验室 ,有受到之前在 Google X 的什么经历影响吗 ?
或者你可以先介绍一下你当时在 Google X 的经历吗 ?
我虽然最近在国内嘛 , 我可能我的职业可能在美国会更多一点 。 我是 11 年在哥伦比亚博士毕业之前 , 那时候在决定是要去做 professor 还是去做一些别的事情 。
刚好那时候 Stanford 的一个 professor 说要去 Google X 成立一个新的组 , 所以他就拉我 , 然后他从 Stanford 去 ,他他那时候是 practical, 就是一种一种叫什么 , 类似 take a leave 的方式 。
然后我从哥大去修学 , 然后我们还有另外一个 professor, 我们三个人就在 Google X 成立一个新的组 。 所以那个组就是回头想 ,其实那个组其实是为了满足 Circle Brain, 就是 Google 的一个 founder 的很多探索的需求 。
所以我们我们我们成立一个组 , 最后增长大概 12 个人, 我们 12 个人里面大概拿过 4 次格莱美奖 , 基本把整个行业最厉害做 computer vision photography 的这个领域的人都找过来 。
所以做了很多很有趣的事情 , 中间有一些还蛮有影响的 。 我们我们其实谷歌眼镜最核心的成像跟视频处理算法 , 整个技术站是我们给的 , 然后这技术站现在其实也在安卓 , 基本上所有的手机上, 所有手机安卓手机上面的 image processing,vision processing 都是我们那时候给的一个技术站 。
所以这个可能对我影响会确实会会大一点 。 然后我们然后我开始做创业 , 我第一次创业是在美国 ,也是做的非常可能 hardcore, 就是做做 immersive video 的一些可能最前沿的东西 , 然后应该是那时候做做的最高清视频的渲染生成的一个创业 。
然后我第二次创业就是这家公司 ,有个非常大的反差 , 这个公司是做非常接地气的事情 , 这也是我吸引一个 lesson, 就是我一定要做用户明确要 ,而且非要不可的功能 , 那就形成个反差 , 这样的东西都非常接地气 , 非常不 sexy。
然后我自己就非常非常难受 , 就是我做的第一个功能觉得好 low 啊 , 虽然大家都想要 , 然后另这这是我的一个个人的情绪 , 需要需要有一个地方去发泄 。
但另外一方面就是我会觉得像像这种非常接地气的功能 , 虽然用户要 ,但它是没有办法达成我们说要视频表达自由这个大的事情的 。
你用传统的 vision 方式往前推 ,其实是你是到不了那个点 ,但你可以 make money。 所以我觉得存在一个 research 的需求去解决一些非常核心的问题 , 比如说有一些人他形象就是很差 ,他的音色就是不好 ,他讲话就是不溜 , 你无论怎么去剪辑他都是没有用的 。
你给他再好的提词器 , 你把脚本全部都写好 ,他也是拍不出来的 。 那这些东西就要被解决 , 那我们就去做一个 research 的事情 。
所以有一点韧性 ,但是好像很 lucky, 就是也不是我们突破 ,而是整个行业突然间 22 年 23 年之后很多突破 , 然后我们实验室就借助这些突破 , 然后去做了这个事情 。
所以可能是一个 risky 的一个 lucky。
这个其实就是乔布斯说的 , 你在某一个时间线上会发现前面的点都可以连起来 。 然后我其实刚你说的这个时候我突然想起来 , 我认识你的时候就是就是在第一 , 应该就是在第一段创业的时候 , 对吧 ?
对 , 我还记得我们在那个 San Jose Convention Center 吧 ?
对 ,是 。
对吧 ? 对的对的 。 然后你可以再说说 , 就比如说当时在 Google X 的时候 , 那个那样听起来那样子的环境应该是一个没有预算限制 , 只求探索的这么一个环境吗 ?
很理想的一个做研做科研的一个环境吧 ?
对 , 我觉得可能没法想象比那时候更好了 。其实那时候我我我举一个例子 , 就是那时候的一个 image lab, 我我同时管了一个 lab, 然后如果我要采购东西 ,1 万美金之下我就可以直接买了 , 所以是非常非常奢侈 。
然后我可以对 , 然后我们去招聘的时候 , 第一个阶段我们会把谷歌其他组的 A+ 的人都招了 , 直到最后 。
就 letter page 是管正式的业务的嘛 ,Circle Brain 是管 Google X 去搞一些奇奇怪怪的事情的 。 然后有一天就 Larry 就就生气 , 就说你不能再从 Google 别的部门去挖人了 , 然后我们就开始从 Google 外面去挖人。
然后基本就是我们会找我们觉得在我要的方向上最厉害的那个人, 所以非常非常奢侈 。 但这个其实也是后面我离开的一个原因 , 就会发现就是进入这种状态之后, 基本都在做 research。
后面我带了一个项目 , 然后有六七个人帮我一起去做 , 然后这项目呢也在 All Hands 去做 demo,但 demo 完之后大家觉得哇好酷 , 然后就没有 , 然后就挂在墙上去做展览 , 就哇这个好厉害 。
那我觉得这个东西啊跟我读博士的时候也没什么差别 , 我觉得我还轻松不要浪费这件事情 。 所以太自由走到极端之后, 我发现没法产品化 , 没法这个东西产生影响 , 所以是我离开的主要原因 。
这样你能给听众解释一下, 你刚刚说从 Google 的 A+ 招人,Google 的 A+ 指的是什么 ?
就其他组这个能力最强的 , 然后业绩最好的人, 我们就看哪个组 , 比如说我们看中了 Google Earth, 就是做 Google 地图那个组 , 我觉得他们组有一个人的业绩特别好 , 人最聪明 , 然后我们就会去把他招过来 。他们一般都会来 ,他们都会愿意来到我们组 , 就基本就我们在 Google 内部就就自己去挑 。
对 , 所以这个其实其实不是很好对业务部门 ,因为他们是赚钱的 , 我们是花钱 。
正好前两天听那个 Mark Andreessen 他最新的一期播客里面讲到开源的意义 ,他就是盛赞这个开源的意义 ,其中就提到说正是因为开源才让学界有了能力去做以前就是前段时间只有大公司才能做的事 , 就是因为花费太高 。
我我觉得把一些厉害的人能够放到能产生影响的地方 , 我觉得是比较重要的 ,而不是一些大厂或者是哪某个机构把很厉害的人聚集在一起 ,但不产生效果 , 我觉得其实是比较浪费的一件事情 。
那你当时就是抱着一种想要让自己的研究能够落地 , 能够就是变成现实的这么一个想法 , 可以说一说就是你的当时第一段创业经历主要是做什么 ?
VR创业反思50:51
因为我记得当时是做是做 VR, 对吧 ?
对 , 所以这很有趣 , 就是虽然我是抱着那想法出来的 ,但后来现在回头看 , 我的第一段创业经历其实还是非常 research driven, 就是我觉得那时候已经已经很努力去去抓用户需求了 ,而且我会以为自己抓的是用户需求 ,但其实回头看其实并不是 。
但第一段我我更多的角色是 CTO 了 , 所以我会更在意我的技术是不是行业最领先 。 所以那时候做的事情其实也是一个比较 innovation 的一件事情 , 就是我们那时候希望能够让两个人无论你在什么地方 , 你们两个人之间就可以随时随地的互相见面 , 就 teleportation 这个这个概念 。
所以我们会做很多视频的压缩 , 然后怎么样可以高清的渲染 , 实时的渲染去做这件事情 。 那这个事情从大的逻辑来说 , 你会觉得这个需求非常大 , 对吧 ?
你可以让任何人两个人在空间上可以去连接 ,但其实如果你从商业上去去做很多的仔细的并的辨析的话 , 你其实发现这个商业场景其实是不成立的 。
有很多原因会导致你的商业模式不成立 , 所以不是说你有一个 idea, 这个 idea 好像从逻辑上说得通 ,而且事实上很大 , 你就可以去做这件事情 。
其实 Apple Vision Pro 之前推的时候也有这个 , 就是 FaceTime, 当时这个 demo showcase 出来 , 我们应该都有试过吧 , 对吧 ?
还是蛮震惊的 ,但是好像也就是试过之后就纷纷大家的 MVP 都吃灰了 ,也没有人真的在用它打电话 。
当时你这个你也提到嘛 , 觉得这不是一个真需求 , 这背后的原因是什么 ? 当时有去思考过吗 ?
你说 Vision Pro 对吧 ? 我其实刚上线的时候 , 我我其实就不是非常看好它 ,但我知道它的体验会非常好 。
我我我第一段创业公司中间有一个员工 ,其实后来就在 Vision Pro 去做 Vision Pro 的事情 ,因为他还是放不下他对 VR 的一些事情 。他就是这个商业上能成立 ,其实有很多条件嘛 , 比如说你的 phone factor 是怎么样的 , 普通人能不能接受这件事情 ,他有没有其他的替代方案去做 。
那这是这一方面 , 然后另外一方面就是这个你要形成生态 , 那里面要产生很多的 app, 那就要很多生成内容 , 那有些人生产其他的 , 就是你会有一个一个产业链 , 那你这都得做得走得通 。
所以我我在我第一次创业之后, 有一个我的非常保守的一个商业的一个选择 , 就是说我要做整个行业链链里面缺的最后那一环 。
就就有时候你会觉得这个事情很漂亮 , 它应该能做成 ,但这件事情做成需要五环 , 然后你说我先去做第一环 , 然后你希望别人把另外四环给做了 , 这其实是非常难的一件事情 。
所以 Vision Pro 其实也是一样 , 无论你是从 phone factor 价格 , 用户对它有没有一个 must have 的一个一个 reason,其实都缺了很多很多东西 ,但它有非常吸引人的地方 , 对吧 ?
体验非常好 , 然后非常酷炫 , 你可以想象很多好的东西 ,但这好多东西没法形成一个完整的完整的一个商业的链 , 那就不能做 。
也许 Apple 它有足够的资金可以一起烧 ,但但是我觉得即使像 Apple 这么大的体量 , 都很难把这么大的一个一个链条给串起来 。
那对创业公司来说 , 可能要尽量躲得远远的 。
其实做 Vozo 刚发布的第一版就算是非常的成功嘛 , 这个成功背后也有就是用户觉得喜欢 , 想用 , 爱用 , 喜欢传播 。
那这个就是非常好的实现了你从一个 researcher 到去找用户需求 , 满足用户需求 , 就是这个转变 。 你觉得就是在做 Vozo 的时候 , 你自己是做对了哪些事情啊 , 带来了这个结果 ?
我我觉得我做 Vozo 的时候 , 我觉得第一个我我觉得我比较耐性 , 就是其实之前做一个产品的时候 ,因因为像拼 research 的人有时候会特别 exciting, 就是你想到了一个想法 , 你觉得哇这想法好厉害 , 你要不把它做出来你都很难过 。Vozo 的话就就其实是难产的 , 就是我们不停的有个想法然后被 kill 掉 , 想法 kill 掉 。
我们其实在 Vozo 情深是我自己用 , 我用 GPT 帮我一起写写了一个我想做的一件事 , 一个一个功能 , 然后我我就可以在我的电脑上 ,在 terminal 上去去做一些视频的剪辑 。
我当时觉得那想法好好 , 大概是 23 24 年可能 3 月份的时候 , 然后我就先用它真正去剪视频 , 去改视频 , 然后我就发现并不是我想象的那样子 。
第一个事情就是我要魔改的 , 虽然那个工具可以帮我改任何东西 ,但是我竟然不知道我该怎么改 , 然后我就会问 GPT 说我要怎么改 , 然后 GPT 改完之后我再一条一条的改进来 。
我说这那这个不是很麻烦吗 ? 那我就把 GPT 给给给接进来 , 就是我只要跟他说请把它改的更温柔一点 , 然后他就帮我改完了 。
那就就相当于是从 23 24 年的 3 月份 , 我自己写写了个小程序去用去玩去迭代 , 然后觉得要加这个东西 , 要加那个东西 , 然后一直到 7 月份的时候才做了一个东西 , 我觉得好像还行 , 好像可以玩得起来 , 然后才把它做上线 , 然后中间就会做很多的 study study 还有好处 。
所以我们之前有别的产品嘛 , 我们有很多的社群 , 所以我对一般的 creator 他大概是什么样水准 , 会碰到什么问题会比较了解 。
所以就虽然之前我们的视频视觉模型已经积累了很久 , 然后真正去推这产品的时候 , 还是会经过很长的时间 , 然后我我觉得还是值得的去去花了时间找到产品 , 然后再去推它 。
好过就你都做了 , 然后发现自己做错了 。
然后当时你在 terminal 里面去剪视频这个事情 ,是你在就是寻找用户的需求 , 寻找产品的 idea 才去做的 , 还是是那个时候就是你自己确实就是也正好需要干这个事情 ?
我那时候是想了一个一个想法 , 就是说我希望有一种方式可以像编辑文字一样编辑这个视频嘛 , 然后这个想法在图都画好了 ,但我觉得图画了在脑子里想不算 , 所以我想那我要把它实现出来 。
那实现最快的方式就是我在 terminal 上去实现 , 就写了一个没有 GUI 的界面的一个软件 , 然后但可以用 command line 去实现所有我想做的编辑 。
然后第一个视频做出来之后, 那团队就很哇 , 说哇这个可以改成这样吗 ? 但那个视频我花了很长的时间 , 就是我要一点点抠 , 一点点抠 , 然后这是我第一个版本 。
然后我后来想怎么可以把这个从我三个小时改成比如说我十分钟能做完 ,因为我觉得一般人你超过十分钟要做 , 那他可能就不做了 , 那就慢慢去演变这个这我的 prototype, 然后到一定程度我觉得好像有点意思 , 然后我在团队才会进来去做这个产品 。
直播机与提词器58:03
你说到就是第一段创业经历结束 , 然后后来回国再创业 , 当时心里面想说一定要做这个非常接地气的事情 , 当时是什么样子的事情发生 , 或者是什么样子的感触让你有了这个想法 , 就是我一定要做用户 , 就是特别特别接地气 , 用户一定会用的 。
这想法差不多是我觉得有个背景是这样的 , 就我们之前做 VR 那个项目的时候 , 我们 serve 了很多特别大的客户 , 包括 AT&T、Verizon,也包括中国移动 、 中宣布等特别大的一些用户 。
然后但是有一个很强的体会 , 就是每次我们从产品迭代以后, 我们都是要求着他们去用的 ,因为他们其实没有那么强的意愿去用它 , 我们都要去说服他说哦有个申请你去试试看 , 然后每一段时间都要求他说哎你有什么反馈呢 ?
但他们很多时候根本就没有用 ,他们只是付了钱 , 就是就放在那里 。 这也是会导致就是我们前一家公司后来没有做得特别大 。
那在那个时候其实感觉还没那么明显 ,但是我是 20 年有时候会回到国内 , 然后 21 年在国内待的时间比较多 , 所以那时候刚好是疫情嘛 , 所以我在杭州就是我哪也去不了 , 我就把杭州的 MCN 大概十几家 MCN 的 CEO 都聊了一遍 , 然后就形成一个非常强烈的对比 , 就这些人每次聊都会讲很多他的需求 ,他说我要这样 , 我要这样去做视频 , 我现
在有这个问题 , 就是跟 VR 就亲亲民对比 , 这边就是有很多东西想要 ,但是我暂时还提供不了 。 另一方面就是我做了好多东西 , 我求着他们去用 , 我觉得那件事好痛苦 , 然后我后来觉得哎那个我做商业应该是这样 , 我要做有很多人想要的东西 , 我做完他们立刻就可以用 , 我觉得这个是才是一个好的体验的商业 。
然后你做了什么呢 ?
对 , 所以我们那时候先第一次做直播机 , 很有趣 , 就是因为那时候有很多 MCN 想想做想要做一个直播的一个大楼 , 这大楼里面说有几百个直播间 , 然后他们就发现就没法去做这件事情 ,因为直播间很复杂 , 特别是高级的直播 , 你可能有多个机位 , 然后可能还有个导播 , 每个人戴着耳麦 , 说一号机位 Zoom in, 二号机位拉达 , 就很很复杂的一件事
情 。 所以我们那时候给他做了一个直播机 , 就大概这么大 , 大概人头这么大一个直播机 , 只要有一个人拿着一个 pad, 然后大量的镜头切换都是他自动去切的 ,他会理解这场景 , 然后你手上动的时候他切到你手上, 你可以展示一个货品 , 然后这个这个导播就很轻松 。
还是做 researcher 人的本能反应 , 就希望用 AI 替换掉 。 那这是我们第一个产品 , 然后其实还是不够接地气 ,有它有很多商业上的问题 。
然后这个项目大概过了半年之后, 我们把它 kill 掉 , 然后再做了后来一直延续到现在的一个比较成功的产品 , 主要是功能是提词器 。
我觉得可能大家可能会知道提词器这件事情 , 就是对大多数的人, 包括我在内 , 就是提词是最大的一个难题 , 只要超过一分钟 , 可能超过半分钟我可能就记不住了 , 只要记不住你拍视频的时候就会引成会会转过去看 , 那这个片子可能就废了 。
所以我们就做了一个很简单的 AI 提词器 , 它一个东西悬浮在你的手机上方靠近相机的地方 , 然后一边说话呢 , 它一边会滚动 , 就有点像唱卡拉 OK 似的 。
那唱卡拉 OK 呢 , 你是跟着字幕走嘛 , 那这个 AI 提词器就是字幕跟着你的声音走 , 你停下来它也停 , 你讲得快它也滚得快一点 。
所以对对于像一些不是非常专业的人来说 , 就很好解决它这个问题 。 然后这个东西还让我有很多意外, 就是我开始就说我我不知道它赚不赚钱 , 反正我知道他们他们需要这东西 , 那我就做给他们 , 然后做完变成 APP 之后发现他们还付费 , 然后就很有意思 ,而且付费率还挺高的 。
然后我们就围绕这个东西 , 就慢慢把这个 APP 做得越来越大 , 更多的功能做进去 , 然后付费率越来越高 。
然后这个产品 22 年上线 , 然后到现在我们大概累计有 800 万用户左右 , 然后我们还有私域群 , 我们因为很多达人他其实要需要很多教育 , 所以他会进到我们群里来 , 然后我们群里的大概将近 10 万人。
所以就就是有时候就发现国内这个市场真的是非常非常大 , 然后接地气的需求需要的人非常多 。
研究实验室1:02:30
这是我们相当于是在 21 年之后先做了直播机 , 然后转向短视频制作 , 围绕提词器慢慢去把这个 APP 做出来 。
那这个 APP 其实现在也是我们营收的主要来源 。
就当时做一个提词器 APP, 这听起来就是你之前可能十年的这种研究之心得都没法发展 , 没法发挥了 。
当当时是一个什么心情啊 , 会觉得就是感觉好像就是割裂了过去的积累的感受吗 ? 会有这样的感受吗 ?
会啊 , 会很强 。 因为对于我来说 ,有时候比如说我去去有时候跟一些我的以前的老师或者或者同学聊的时候 , 我一般都不会跟他说我在做什么 。
哈哈哈 ,因为这个并不是一个非常 sexy 高大上的东西 。 但说回来就是一个 AI 提词器要做得好其实很不容易 ,因为你在在在录的时候 , 你跟环境里可能噪音会很强 , 然后这个人讲话口音可能会很重 , 然后他可能跳动可能乱跳 。
那你真正要把这个东西做得很好用呢 ,有很多非常 dirty work 的东西 , 然后有些性能很差 , 我觉得也不容易 ,但是它确实不是一个高大上的一件事情 。
所以它就像刚刚提到的 , 就是就逼迫我后面去做了一个实验室那件事情 ,因为否则的话就感觉 。
直接和解 。
感觉我在干嘛 。 哈哈哈
。
对 ,但你现在回头再看 , 如果再回到那个时候 , 你还是会做实验室吗 ? 还是你觉得就不会那么看不上自己做的提词器这个事 , 就可能花更多的时间去做更多类似提词器的产品 。Maybe 今天说不定这个创业的结果或者这个阶段会更靠前更好 。
对 , 我我觉得都有可能 。 因为那个决定确实还是比较冲动的一个决定 。 当然因为我是跟我之前的一个导师 , 然后他他是一个美籍的外籍院士 ,因为我们跟他我正跟他聊的时候 , 从逻辑上来说 , 一我们在一线知道非常多视频创作的一些问题 , 然后有非常多的 researcher,他有很强的 research 能力 ,但他其实并不知道真实问题在哪里 。
所以从这个大逻辑来说 ,是值得去做一个深度研究的实验室 , 然后我 feed 课题以及确定它的研究方向来去做 。
就这大的一个我我觉得是一个一个成立的一个结论 。 只是说这件事情也许不应该我在同时在做创业的时候来做 , 当时也没想这么多 , 那就做了呗 。
那那如果回头再想 , 我可能我觉得是跟我觉得百分之五十五十 , 我没有那么笃定再来一次 , 我会再做一次实验室 。
所以是到提词器这个点 , 这个按照这个时间线 , 那就是从 Google X 到第一个 VR 的创业的项目 , 然后到到杭州做了直播机 , 然后是提词器 , 然后是这个 research lab, 然后是 Vozo,Vozo 会跟提词器的这个 APP 会合并 。
对 , 提词器其实在原来 APP 里其实已经变成一个功能了 ,因为它只是这个这个 app 最开始的入入手 。 不过回到刚刚 Koji 问我的问题 , 就是我觉得回到那个时候 , 这个 lab 大概率还会做 。
如果不做 lab, 我一定会做别的比较比较 crazy 的事情 。 对 , 否则的话 , 我觉得如果我只是做纯的接地气 , 然后能够 make money 这件事情 , 我觉得我应该是不会接受这个东西的 。
此刻呢 , 你觉得此刻今天可以接受了吗 ?
我就知道 Vozo 让我觉得我有点 proud, 这个东西是我做出来的 , 我觉得我觉得可以交代 。 对 , 如果如果只是只是提词器的话 , 我觉得我没法跟自己交代这件事情 。
产品经理转型1:06:17
你在当时做提词器这个时候 ,因为我觉得它对你的就是根据你的这个职业经历来看的话 ,其实是要是对一个人的要求是很高的 ,因为你要改掉你过去的工作习惯 。
作为一个有光环的海归 , 回来之后去见 , 就是不不是说人家做的事情就是接地气 ,而是你要去接触一群你可能从来没接触过的人, 你可能以前都不知道该怎么跟他们打交道 。
挺想问这个问题是你在这个时候有做哪些 , 比如说是可能可能是对自己影响比较大的自我反思 self reflection, 或者是其他什么样子的比较大的调整 , 能让自己来去做一些自己可能以前从来没做过的事情 , 然后去克服这种我们从来没有做过这件事情带来的这种恐惧 。
我我觉得我的我的我的性格比较有意思 , 就是因为这件事情我自己没做过 , 所以我我我其实我在做的时候我还挺 exciting 的 , 就是有时候去一些直播基地啊 , 然后跟一些以前从来没聊过的人聊啊 ,有时候会非常非常让我 surprise。
就最开始做的时候 , 我举个例子 , 就是有有一个用户跟我抱怨说他提词器不好用 , 然后我们就说哎 , 那你的环境是不是比较有噪音啊 , 然后你的画面看着比较差 , 你的灯光是不是比较暗啊 , 然后他会很确定的跟我说他环境里非常安静 , 灯光非常好 , 然后我们就很奇怪 , 然后呢我以为我们出 bug, 然后我们就去了他们拍的地方 , 然
后他灯光就是就是非常暗 , 然后他边上就车来车往就特别吵 。 我觉得很有意思 , 就是他不是说谎 ,他就是这么认为的 , 就是人是很不一样 ,他觉得环境我很亮啊 , 然后我们说的亮不是他说的亮 , 然后我们觉得安静不是他说的安静 。
我我觉得很有趣 。 所以我去很多直播基地 , 包括我跟每一个 MCN 的 CEO 聊的时候 , 我觉得他们跟我们都是完全不一样的 , 我觉得很很好玩 ,但这好玩是一方面 , 那有时候晚上静下来的时候想哎呀我做的是什么事情 , 那就又会又会有问题 。
所以所以我倒是我我知道可能有些人会很难接受 , 我我我还好 , 我觉得我这个导师我觉得是让我觉得 exciting 的部分 。
不 exciting 点就是我觉得我做做做东西好像别人也能做 , 或者说我可能做的比别人好一点点 ,其实让别人做也能做 。
这这这其实是我的 ,因为我之前从做 research 的人做 scientist 的人就一般会有一个想法 , 就是我要做别人做不出来的东西 , 那这个其实是心理上的比较大的挑战 。
那其实从经济上对 , 这这也是一个经济理性上的考虑吧 , 就是当我做可能一万个人都能做的东西的时候 , 我也没有独特的竞争力 , 所以我要做别人不能做的事情 , 这个竞争力才能让我有持续的差异化 , 可以越做越轻松嘛 。
对 , 技术出发的人这个坎一般过不去 , 就是总是觉得如果做的东西没有技术领先优势 , 这感觉就就不能做了 。
有时候我们不能叫自己精英对吧 ,但但是说精英创业的话 , 我我觉得这个其实是很难突破的一件事情 , 就是你总觉得我要做点不一样的事情 ,但是如果从商业的角度来说 ,其实不是这样子的 。
但我觉得就是其实这是挺多这种不管是研究背景还是技术背景创业的人, 很多人都会遇到的一个问题 , 这个你怎么样从商业的角度来看这个问题 ,而不是从技术的角度 , 技术突破的角度来看这个问题 。
对 , 每天都会看到很多很多项目是这样子的 。 我我觉得有有几个 , 我觉得有几个 points, 我我可能没有没有特别系统化 。
第一个呢 , 我我觉得是
需要是个好的产品经理 , 就是得得抛弃自己的 wishful thinking, 比如说我我我第一段经历就更像是 wishful thinking, 就是我觉得如果我做成一个能够远程传输的这么一套系统 , 那就会有人去用它 , 然后就会有人给它做相机做设备 , 然后大家就会付费 , 然后就会你有很多符合逻辑正确的 wishful thinking,但它其实并不会发生 。
它会不会发生其实你问一下就知道了 。 那这这这是第一个我觉得要克要克服的事情 。 第二个事情我觉得是是还是是 knowledge, 就是他可能并不知道 , 就是说对于整个市场来说 , 你需要你创新的人群占比是多少 。其实如果你真的去做调研 , 你是非常非常 surprise, 就是你你你很在意的那些创新的点 ,其实对用户来说可能中间有 1% 的人在意这件事情 。
那这个我觉得其实是是 knowledge 的缺失 , 就是可能并不知道 , 所以你会觉得创新部分很重要 。 那那我觉得一个是态度上 wishful thinking 的事情 , 一个是还是要更了解这市场 , 然后可能会有些怎么去掉自己的 ego 啊之类的事情 。
我觉得还是一个可能需要一个系统性的理论 ,但但但我现在没有 。 我我可能我我觉得也许 Koji 你你可以想办法去去总结一下, 我觉得对很多创业者会很有帮助 。
你刚才说到这个去掉自己的 ego 这一点 , 就是其实这一点是我觉得最难的一点 。 就是你有什么现在回头看当时有做什么事情来去掉自己的 ego?
放下ego1:11:28
其实都是被动的一些一些教训 , 然后才会去去这件事情 ,因为你不会觉得自己错了 , 然后你错了几次之后你就你就知道了 。
哈哈哈 。
那你的那个就是有没有一些什么应该怎么说呢 , 就是有没有一些什么样子的时刻是你觉得自己在经历一个很大的改变 ?
你说某个时间点吗 ?
或者是某些经历 , 或者是说你有比如说这个时候有要求自己去做哪些以前可能你都不会做的事情 ?
我觉得我不知道是不是容慧问的这个问题啊 , 就知道在行为上会有些变化 。 我觉得 ego 有个表现 , 就是认为自己想的东西都对 , 无论大的小的 , 都会试着去说服别人等等。
我我觉得我也不知道什么时候发生 , 我觉得慢慢的很多 , 比如说在团队里 ,因为我还是会参与比较多的产品跟技术嘛 ,有时候我会抛一个技术方案 , 然后这方案可能会被小朋友们给否掉 , 对吧 ?
那现在一般就会很习惯 , 就是否 , 虽然他们否的不一定对 ,但否就否掉了 。 只要这件事情不是非常 critical 的事情 , 那我就会让它过 。
那这个算是这改变 , 我觉得我以前不是这样子的 , 我以前会觉得我是最聪明的 , 我觉得一定会对 。
那而且这个东西很重要 , 如果你做成那样子 , 性能就会从 99% 变到 98.9%。 这是不能接受的一个一个事情 。 哈哈哈
。 对 ,但我我我我可能想不起是哪个时间点开始这样子 。
是不是因为曾经这样的放手也让你得到了正反馈呢 ?
我觉得是 , 我觉得放手之后是自己时间会多很多 , 就是没有必要 ,因为因为比如说如果我从概率上说 , 如果用我的方案可能 70 分 , 对吧 ?
然后用他的方案可能也许要 65 分 ,其实没有关系 。 然后因因为那是他的方案 , 所以他执行的会更好 , 所以他做出来结果可能拿我的比我的可能还更好一些 。
所以是没有必要去纠结这种东西 。 只有一些东西它真的是非常非常 critical, 那那应该是非常极少数的事情 , 我应该想的很清楚 , 然后一定要去这么做 , 说服所有人, 那就会收缩到非常少 , 就极少数的事情 。
那你在这个时候有对创业这件事有什么新的理解呢 ?
对 , 我我我其实有有一个东西 , 我我今天看着那个第二部分的一些问题 , 我我想了一想嘛 , 然后有一个跟这个有关 , 就是我我至少我在最开始创业的时候 ,有个有个心路历程 。
我是 15 年从 Google 离职开始做第一家公司的 , 那个时候当时很懵很懵懂了 , 我就做 CTO, 然后去做解解技术问题 。
所以创业就是一个模模糊糊的一个一个东西 , 然后就反正 exciting 就去做就完了 。 然后后来慢慢觉得哇 , 创业的事情好多啊 , 就是每天要这个那个那个这个那个好忙 , 就是包括我第二次创业做 CEO 的时候好好多事情 , 然后什么事情都会自己去去做 。
然后但其实我的经历非常分散 , 一些公司重要决定我其实都我觉得都没有做对 , 就是可能因为花的精力没那么多 , 然后慢慢的发现其实重要的事情没几件 。
然后现在更多纠结是到底哪件是重要的事情 , 就就就哈哈哈 , 就比如说现在我有三件事情很重要 ,但但我心里里知道其实里面肯定也没那么重要 , 可能中间就有两件事情是重要的 , 然后我会花很多时间去想到底哪个更重要 。
所以我在想 ,也许更厉害的创业的人 ,他能够一眼就知道这件事情更重要 , 那件事情不需要做 。 所以我我觉得这个路径可能我不知道接下来 305 年会怎么演变 ,但我觉得聚焦这件事情 , 知道什么事情更重要 , 这件事情我觉得可能是 ,但这是我的理解 , 我觉得是可能一些特别厉害的创业的人跟跟像我这种比较普通的人的差别 。
一个好奇就是当时这个公司融资的时候 , 找线性找红杉应该聊了一大圈 , 你是用这个直播机这个 idea 去融的资吗 ?
对 , 直播机 。
哎 ,其实当时你的这个整个研究背景哦 , 就是包括第一段创业也是做 VR 嘛 , 跑去做直播机 , 这个确实也是一个很大的落差呀 。
当时你是怎么就下定决心 , 看到了一个什么样的直播机的一个远大的一个一个商业的前景 , 然后让你愿意就是自己下要自己下场 , 真的做 CEO 去这个 take 最大的 risk 来去创业 ?
其实有两两边的想法 , 第一个呢 , 就是我我觉得国内的电商以及对短视频的需求 , 这这是一个非常大的市场 , 里面一定有机会 。
有有有一些技术能力的人, 如果商业 ,因为我是温州人, 我总觉得我的商业能力不会太差 , 我觉得这这个地方一定是有机会的 。
直播机是不是我我不知道 ,但是直播机在当时看上去是有明确的客户 , 然后他们想要 , 然后至少我们也能卖蛮多钱 。
只是当时没有想明白直播机这个软硬件的项目将来能走多远 ,以及会有什么坎 , 没有想的特别清楚 , 反正就就先做了 。
所以中间其实我们经历过有一次融资 ,有一个还蛮有蛮有名的国内的一家美元基金的一个老大 , 就直接跟我说你你为什么要做这个事情 , 你能做别的吗 ?
我我觉得确实这个是一个挺让人意外的人生的转折的 , 就是做那么久的 research, 然后现在跑出来要创业 , 然后去融资的时候讲这样一个 story, 就是我觉得每个人都会怀疑自己可能听错了你要做的方向 , 会有这种就是巨大的落差感 。
但你小时候就会经常这样嘛 , 就出人意料的做一些决定 。
对 , 我我比较我比较特别一点 。 对 , 我有很多很奇怪的一些决定 。
可以讲一些你类似这种 , 就让人要这个 double confirm 一下啊 , 这个真的是他做的吗 ? 就这样的事情还有哪些 ?
我我本科是广元的 , 所以我我是先在广元学习 , 然后毕业后去去微软工作 , 就是很奇怪的一件事情 。在微软工作一段时间之后, 觉得我想做 research 了 , 所以我就从微软辞职 , 然后去去读研读博了 。
本科是学管理 , 然后研究生读的计算机 , 对吧 ?
对 。
而且多数人到了那个岁数要再转 research 也转不了了呀 。
我不是很操心这些事情 , 就是我我的可能沉没成本在我这边不是很很重要 , 我觉得接下来是是该做的事情 , 可能就会去做了 。
那你是李诞说那句话 , 沉没成本不参与重大决策 。 我觉得刚才你说到那个你做 Vozo 的前面做的那些 ,因为你自己在做一些研究 , 然后自己用工具来把它写出来 ,其实之前做研究可能有一些因为环境的优势 , 让自己也可能相对来说对更接地气的东西 , 之前在前期可能接触的不是那么多 , 然后到后面我觉得它是一个闭环 , 就是闭环在了 。
你这恰好其实也是你自己做 research 的一个习惯 , 然后结合了工具 , 结合了这个特别是 AI 之后的一些机会 , 还和工具的大的发展 , 然后它合起来发挥了一个作用 。
对 , 我觉得其实最后结合点其实是在就产品上面嘛 ,因为我我觉得产品经理真的是蛮难做的 。 我我觉得差不多是过去的这么多年, 硬生生把自己变成了一个产品经理 。
我觉得产品经理可能是这个时代我觉得是比较有意思的一个岗位 , 就是你你要理解技术 , 然后你要理解市场 , 你甚至要理解一下这个流量怎么来 , 然后这几个东西全部能够很好的绑定在一个一个东西上, 那就那个产品 。
所以所以技术人过来做产品 , 还是说市场的小伙伴去做产品 , 都会有很多挑战 。 我走的可能就是从从 research 到技术到产品 , 这这条路径 。
所以可能我我觉得还挺好的 ,是挺有挺有趣的一个 。
当时做这些事情的目标是什么呢 ? 是我就是要去做一个什么样子的公司 , 还是我要赚钱 ? 就是那个核心的心理的动力是什么 ?
以及你刚才说这个我也想到 , 就是怎么样做到能让沉没成本不参与重大决策 。 我觉得这是一个挺特别的地方 。
我觉得那个可能是人的个性 , 就我可能是个纯理性的人, 然后我我我之前我我是我是个概率论者 , 所以所以还还好 。
我觉得初衷可能会有两部分吧 , 第一个就是从无论从以前做研究 , 还在 X 可能被 Google 也被影响 , 就是做做 research 人, 就希望我自己的 intelligence 能够非常 positive 的影响非常多人, 影响这个这个世界 。
就这这可能是从大的就内心的一个想法 。 另外一边就是更具体的 , 我我我应该很早在在 Google 的时候就就一直想 , 觉得用用 video 去传递信息 , 我觉得是这个必然发生的一件事情 ,因为 video 的信息量其实最大的 bandwidth 也也也最高 , 迟早会发生这件事情 。
我总觉得这件事情一定会发生 , 然后希望自己是中间主要的促成的一个人。 但 15 年的时候太早了 , 发现市场也不 ready, 技术也不 ready, 然后到了 21 年的时候 , 我发现这个东西好像有一定点机会 。
所以这也是回到刚才 Koji 问的问题 , 就是为什么 21 年会回到国内去做这件事情 ,因为这个 video
story telling 这件事情跟我最开始我我自己想做的事情有有一定关联性 。
总结来说 , 还是因为有一件你非常相信的一定会发生的事情 , 你希望自己能够是这个一定发生的事情中的一部分 ,并且最好能够成为推动它发生的人。
经历过和这个最聪明的一群大脑一起工作 , 所以你看到过非常多顶尖的人, 那你会认为这个顶尖的人和这个不顶尖的人吧 , 就是最大的区别有哪些 ?
对 , 我我觉得我我可能是比较幸运的 , 就是我我可能接触过一些特别 high profile 的人。 我我最开始以以前在微软亚影院 , 然后我我不知道是不是方便在在节目里提他们的一些名字 , 反正就是他是他是一个也是现在美国科学院的一个外籍院士 , 然后他他算是我的导师 , 然后会有一些近距离的交流 , 然后会看发现他是怎么做事情 , 然后他后面又把我送到美国
本部去 , 把当时美美国微软那边最主要几个人都都聊了几遍 。 然后后面我又去哥大跟了另外一个院士 ,他算是在计算成像这边可能最最厉害的一个一个 professor。
然后后面我又去了 Google, 然后跟 Sergey Brin, 然后跟另外一个 graphics 的一个一个一个 fellow, 然后就会 close 工作 。 我觉得他们有一些共性 , 非常非常 focus, 就是他想的东西其实蛮少的 , 就就像我的 PhD 导师来说 ,他带的学生也非常少 , 然后到了到了今年他应该有快 70 岁了 , 然后今年还拿了两篇 best paper。他他想东西就是非常非常聚焦 ,他觉得这个领域里面这个问题最重要 , 然后这个问题
里面这个小问题最重要 , 然后他就会想这件事情 , 然后想事情解完之后 ,他自然而然就会把其他的事情给串起来 。
就因为你把最重要的事情解决掉之后, 很多无论是 resource 还是人自然就会聚过来 , 然后这件事情就就做完了 。
然后有时候你会觉得他其实挺轻松的 , 就非常 focus 做这件事情 。 然后我我觉得这是一个意思 , 然后可能很多很多不是 top 的人, 一一他可能没有这个这么 luxury, 就是只做重要的事情 ,他可能因为生活原因要做很多很其他的事情 , 那反正变成一个一个一种循环 , 然后他们只要做最重要那件事情 , 然后其他事情让别人来做或者是不做 。
我觉得这是一个很大的差别 , 你可以你需要促成这个这个变化 , 然后也需要很多能力 。 就有时候你想聚焦 , 你可能都想不出来我应该聚焦在哪 。
即使比如说有人给你 100 万 ,不用担心别的任何事情 , 让你去做你最重要那件事情 , 你可能也想不清楚你重要最重要的一件事情是什么 。
我我觉得这是一个比较大的 , 我可能是最重要的一个差别之一 。 我我觉得这是我我我我这段时间可能想的比较多的一件事情 , 可能过段时间我可能有别的想法 ,但我觉得这应该是重要的 。
因为这我觉得有个心理 , 就是人都是很中庸的 , 你想到三件事情 , 你下意识你都会觉得这三件事情都挺重要的 ,但其实你可能觉得 1:2 重要 ,2:3 重要 , 可能你觉得一个是 80 分 , 一个 60 分 , 一个是 40 分 。
如果你这么打分的话 , 我觉得你得把分差拉很大 , 你你你肯定会低估中间的这重要性 。 如果你觉得一个是 80 分 , 一个是 60 分 , 一个 40 分 , 大概率可能是一个是 90 分 , 一个是 20 分 , 一个是 10 分 , 人总是会很中庸 。
你自己现在会有什么区分最重要的事情的方法呢 ?
一种就是我就想我不做会会怎么样 , 那很多时候其实不做也也不怎么样 ,但但不怎么样就是数据上的 , 就不是说不做不舒服就不算 , 就不做真正会导致我们公司营收就会下降吗 ?
用户真的就会跑掉吗 ? 会跑多少 ? 是跑两个还是跑 20%? 你你大体一算 ,其实很多时候就就不重要了 。
那你自己有什么保持学习的方法 ?
现在吧 , 现在主要是跟 GPT 学了 , 我是 ChatGPT 的忠粉 , 然后他们因为因为我应该亏了好多钱 ,因为我每天用 , 每天用 。
对 , 开始那个那个 O1 出来的时候 , 我基本就是三天两头都会把它的 quota 用尽 , 然后要等到第二天才能继续用 , 然后现在就可以可以自由 。
我觉得真是我其实其实已经比人聪明了 , 就跟他学就行了 。 然后这是一个 , 另外一个就是会会跟尽量找每个领域最强的那个人跟他学嘛 , 无论是学术这边的 , 然后去找他聊 。
我我觉得我觉得这是比较重要的一件事事情 , 就是比如说你做一件事情 , 就找这件事情你能找到最厉害的人先先跟他聊一聊 。
我我觉得这是比较比较有效的一种方式 。 这可能是跟我以前读管理学院的时候逃学逃多了的 , 对啊 ,因为上课都不去上的时候都要先找一下老师 , 让老师给我划一下重点 。
这个也很有趣 , 我们上上个嘉宾就是 Justin,他是之前做游戏公司的牧童 , 然后他们以超过 40 亿美金把这个公司卖给了字节 , 然后我们问他类似的问题 ,他也说就是找最厉害的人学习 , 然后我们说那你接下来要向谁学习 ?
他说这个第二天约了 DeepSeek 的一个合伙人。
那个时候 DeepSeek 还没有发 R1 啊 , 就是但我们已经知道 DeepSeek 很厉害啊 , 发了 R1 之后觉得这个更是出神入化 , 然后正好发 R1 没多久我们发了这期播客 。
但这个我的问题就是说 ,不是所有人都有这样的这个奢侈的能力或者条件 , 就是想找最 top 的人就能找到 。
那就是在你年轻的时候 , 你现在可能这个也有了一些职业的积累 ,有了自己的人脉网络 ,但你在年轻的时候 , 你是用什么方式找到你觉得厉害的人去和他沟通呢 ?
就我们播客应该有很多年轻朋友 , 给他们一些这样的小 tips。
我我觉得其实只要去找你边上能找到的最厉害的人, 我我觉得这件事情就已经 80% 被完成了 ,也未必要找到这领域最最强的 。
但就是你会发现很多人其实不难找的 , 就是你去找他 ,他大大概率也都会跟你去聊 。 所以我我其实最开始我意识到这件事情是我我我也很晚了 , 就是我我其实是已经在读研的时候才慢慢意识到这件事情 。
所以我原来读研在在在复旦嘛 , 然后那时候就想 , 哎 , 我我我要做 computer vision research, 我应该去哪呢 ? 我要去出国嘛 , 然后我又不知道怎么出国 , 然后我就去东看看西看看 , 然后看到那个北京有个微软亚洲研究院 , 然后我就发了封邮件给中间的一个 researcher, 然后他他我觉得他应该算是我我后面很重要一个贵人嘛 , 然后他就打电话就面试面面 , 打完电话
我就就去北京了 。 然后然后去了北京 , 然后他又帮我推荐给那个前面提到那个那个微软亚微软亚影院的那个老大 , 然后然后他又把我推荐到哥大去读 PhD, 然后又推荐到微软 。
后面就会参加一些学术会议 , 学术会议就就做一些报告 , 做报告的时候就很有趣 。 这件事我就可以聊一下, 我自己当时没想到我做了个学术报告之后, 观众里有一个有个老头就就问了我一个问题 , 就是开放麦 ,他就问我 , 然后我就回答完之后, 然后这个老头就是后来我我去 Google X 我老板 , 就他他他记得我后来都打电话问我 , 跟他要要不跟他一起
去 。 所以我我我觉得你你只要关注边上你能 reach 到的的人, 然后认识他就会有 , 就其实我这网络很小的 , 然后就就可以了 。
我之前听过一个很卷的说法 , 好像也是我们一个嘉宾在一期播客上讲到的 , 就是把每一次谈话都当成一次面试 。
对 , 我们当时觉得被他卷到了 , 这样感觉每每每每一句话都压力很大 ,但其实你仔细想一想 , 如果你可以放松一点心态去面对这样的一场一场的沟通 , 然后尽量不要太害羞 , 多表达 , 可能确实这个会带来一些意想不到的好结果 。
对 , 我觉得这可会是我也许大学和高中应该培训 , 我觉得这是 killer skill。 对 , 这为什么觉得这件值得聊呢 ?
因为我们现在国内会招一些国内的同事嘛 , 我我觉得国内同事这方面明显比美国同事这方面会意识会弱很多 , 所以有时候会花一些精力是是想让他们中间有些特别有天赋的 , 就就希望他们能够变得更厉害一些 , 就有时候会想这些事情会想的多一点 。
中文版发布1:30:19
那我们知道那个 Vozo 之前是在这个海外的 App Store 上上线的 , 那现在是有要做中文版的规划吗 ?
对 , 这规划其实规划很久了 , 中间有些内部的一些 debate, 就说国内市场要不要支持 , 什么时候去支持 。
但其实事实就是我们之前中文版虽然没有发 ,但其实我们现在中国用户挺多的 , 可能是因为毕竟是中国圈圈 , 然后中国对无论是短剧出海 、 电商出海用户都特别多 , 然后其实算是非常多用户 , 中国用户在用 , 然后他们一边用一边又跟我抱怨说要有个中文版 。
这是一部分用户 , 还有一部分用户说用了他不知道怎么去付费 ,因为我们付费其实你支付宝微信付不了 , 然后所以就会有很多这种抱怨 。
所以我觉得差不多是个时间 ,因为我们迭代 PMF 也差不多完成了 , 然后我们再做增长 , 然后国内的话我觉得应该去支持它 。
然后另外一个 debate 就是有些公司他会说我我要把中国市场踢出去嘛 , 我们团队从来没有这么想 , 所以只是说我们中国排第几 ,是先做日本 , 再做法国还是怎么样子 。
然后我们现在决定就是不管怎么样 , 先把国内市场先把支持再说 , 至少让国内用户可以看得明白 , 然后可以付费 , 然后可以给我们发 support ticket。
我觉得这是比较重要的事情 , 所以可能近期我们就会对国内市场做一些开放 , 做一些定制 , 希望中国用户可以更好用我们的产品嘛 。
所以我们围绕它也会在国内做一些招聘 , 一方面是国内的增长商务 , 然后另外的话就是我们一直开放的岗位 , 就是大家如果对 AI video 很感兴趣 , 然后无论你是做产品的 , 做研发的 , 做工程开发的 , 都可以随时发消息给我们 , 然后我们我们可以因人设改 。
OK, 可以因人设改 , 非常广大人才的感觉 。 就如果大家对 Vozo 的工作机会感兴趣 , 可以在我们播客的评论区 , 之后昌印应该会在评论区留一条言 , 会把邮箱和一些介绍都放在里面 。
太好了 。
好 , 那我们今天非常谢谢昌印跟我们分享他做 Vozo 的过程 , 对行业的看法 ,他自己很多的个人的经历 , 对特别是对创作为一个创业者 , 从一个研究者到一个创业者的这个身份的转变 ,以及过程中的很多的感想跟自己的思考 。
那我们今天就先聊到这里 , 然后谢谢昌印做客十字路口 ,也希望以后我们能有机会继续这样子的交流 。
谢谢龙会 , 谢谢高级 , 今天非常开心交流 。 拜拜 。
拜拜 。
好 , 拜拜 。
谢谢 , 拜拜 。
如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 。 最后欢迎你加入十字路口的会员群 , 我们鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。






