开场0:00
欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚新一代 AI 创业者和 AI 时代的积极行动者 , 和他们一起探索和拥抱新变化 、 新的可能性
。
我是 《 十字路口 》 的 Koji, 联合创办了街旁 、 新世相和躺岛 , 发起了 AI Hacker House 这个新一代 AI 创业者的社群空间 。
我相信科技 , 尤其是 AI,是我们这一代人最大的价值创造机遇 。 欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性 。
本周 《 十字路口 》 的嘉宾星爵是向量数据库 Zilliz 的创始人和 CEO。 我第一次听说 Zilliz 是在 2023 年的英伟达 GTC 大会上, 当时黄仁勋点名推荐了这家公司 , 让我印象深刻 ,因为这也是一家中国人创办的公司 。
那真正让我对星爵产生好奇的 ,其实是两个月前归心人的一篇访谈 , 当时有一个很霸气的标题叫做 《 我们没有对手 》。
那我看到这个标题心想 , 哇哦 , 这谁啊 , 如此的嚣张 ,因为在商业的世界里面 , 如此断言式的宣言真的很少见 。
那我想一定是这位创始人 ,他有极强的信念感 , 或者他们的产品有什么样的独到的优势 , 才让他做出这样的宣言 。
因此在我对 Zilliz、 在对星爵有了更多的了解之后呢 , 我发现这确实是一家蛮有实力 、 同时呢也很有故事的公司 。
所以今天我们邀请到了星爵 ,也感谢他来到我们在上海发起的这座 AI Hacker House, 我们一起在线下录制了这一期播客 。
那这也是 《 十字路口 》 第一次尝试录视频播客 , 我们的视频播客随后会发布在我的小红书 、B 站 、 视频号 。
按照 《 十字路口 》 的惯例呢 , 我们会先和星爵来一场快问快答 。 你的毕业院校 ?
认识星爵2:07
华中科技大学 。
哇 , 华中科大的人才好多呀 。Zilliz 创业几年了 ?
到现在为止 8 年 。
哇哦 , 那在创业前你做过些什么 ?
做过一件事情 , 数据库工程师 。
你的 MBTI 和星座 ?
ENTP, 星座是天蝎 。
OK, 可以一句话介绍一下公司和产品吗 ?
我们是一家 AI 时代的数据 infra 的公司 , 我们是要打造一个在 AI 时代里面为非结构化数据构建的数据平台 。
然后你们现在的收入和利润方面讲 ?
具体的数字我这里就不提了 ,但是在过去的 12 个月里面的话 , 我们的营收增长了 3.3 倍 。
哦 , 哇哦 ,12 个月增长 3.3 倍 。 目前团队的规模 ?
目前团队的规模 , 我们大概全球有 130 个人左右 。
像刚才一开始提到哈 , 就是英伟达的创始人黄仁勋在 GTC 2023 年大会上直接提到了 Zilliz,有一种点名推荐的意思 。
就当时这个高光时刻发生的时候 , 你的心情是什么 ?
我第一个感觉就是说 , 这其实更多的是向量数据库这个品类的一个高光时刻 。其实你想到我们当时在 2018 年的时候 , 就开始做向量数据库的时候 , 那时候的话 , 向量数据库这个赛道是完完全全大家不熟悉的 。其实我们自己也会有一点这种疑问 , 到底这个场景在什么地方 , 用户在什么地方 , 到底它以后能不能成为一个广大市场前景的一个产品 , 市场到
底有多大 。 所以我觉得当时的话 ,2023 年那个 moment 的话 , 更多的就是说把向量数据库推到了这个整个全球科技的前台 。
大家都认识到就是说做 AI, 尤其做现在的那个 GenAI 的话 , 一定需要一个向量数据库 。
所以对你来说 , 那确实是一个命运转折点一样的时刻吗 ?
坦白来讲不是命运转折点 ,因为做 infra 这一个赛道来说的话 ,其实它是比较苦的一个赛道 。 它就比如说 AI 的一些这种新的一些算法 、 一些创新 , 可能来说的话 , 一个啊哈 moment, 灵光一闪 , 一个算法的改进跟创新 , 可以让你突破一个性能的瓶颈 、 准确性的一个瓶颈 , 对不对 ?
但是像这种做数据库这样的基础软件 ,其实我们觉得就是说 ,不太可能就是说有那种好像今天发生了一件特别好的一个灵光一闪 , 然后的话 , 我们就可以超越竞争对手了 , 我们就可以赢得更多的客户了 。
这里面更加多的是那种有耐心的去打磨产品 , 然后每一天每一年的这种复利去叠加 。
回到当时 GTC 2023, 黄仁勋在台上点名你们那一刻 , 就从那个时候到现在 ,其实整个这个生成式 AI 发生了非常翻天覆地的进步和变化 。
那当时有哪些事情到今天仍然没有变 ,有哪些事情到今天又发生了很大的改变 ?
我觉得中间来讲的话 , 没有改变的是这个 AI 的这个创新一直在加速 。 随着 AI 的这个加速来说的话 ,其实对于这个向量数据库 、 对于数据的需求的话 ,也一直在增加 。
但是在这个过程中来说的话 , 我也看到在这里面是有一些小的一些波折 , 对 。其实比如说在 2023 年里面的话 , 曾经的话大家都认为就是说 , 那 GenAI 出来以后,GenAI 会马上有一个爆发性的一个增长 , 对不对 ?
然后其实我们看到的就是说 , 的确在 2023 年的话 ,有很多的公司都拿到了投资 ,有很多人都离职出来创业 。
但是其实到 2024 年的 10 月份 、11 月份左右的话 , 就我们看到第一批投的一些很多的一些 AI 的一些创业公司 , 产品其实没有找到真正的 PMF, 产品也比较同质化 , 就融不到第二笔投资了 。
所以很多公司就集中性的那个倒闭了 。
因为我们的这个 ,因为 《 十字路口 》 的用户里面不是所有人都是技术背景 , 我们有很多这个用户 ,他都是产品经理或者是投资人。
可不可以请你给大家先科普一下向量数据库 , 再介绍一下 Zilliz 和 Milvus 这两个公司和产品 ?
向量数据库6:21
嗯 , 好 。其实我可以先讲一下什么是数据库 。 本质上就是说你有更多的数据 , 然后的话你需要找一个方法 、 一个系统把它存起来 , 然后也可以用 。
早在几千年前 , 我们人类的主要的信息的这个交流 , 主要是用这个记载是用文字 , 对不对 ? 一个记载用文字 。
那个时候来说的话 , 就是说你数据多的话 , 你要把数据管起来的话 , 就是图书馆 。 然后到了 IT 时代 , 所有的数据都把它数字化了 。
这个时候的话 , 就是出现了我们说的上一代的这种结构化的数据库 ,其中为代表的是这种关系型的数据库 , 广泛于应用什么金融啊 、ERP 啊 、 电商啊这些领域 , 对不对 ?
然后到了这个 AI 这个领域的后的话 , 我们现在要用这个计算机去理解这一些这种对我们人来说很自然的一些沟通的一些信息 , 比如说我们的语言 、 我们的那个图片 、 我们的一些视频 。在传统的意义上来说的话 , 它计算机是比较难去识别的 。
这个时候来说的话 , 就有了这种深度学习的模型 。 深度学习模型的话 , 会把这些数据把它变成一个这种 embedding 的一个向量 , 就是叫做特征向量 。
然后所以的话 , 特征向量这个这种数据类型 ,在过去的那个五六年里面 , 随着这个 AI 的这个兴起的话 , 就引来了一个大的爆发 。
有了这么多的一些特征向量 , 广大的 AI 开发者需要有一个系统把这些数据把它存起来 。 所以这个时候的话 , 向量数据库就应用而生的 。
所以本质上来说的话 , 数据库系统就是说去储存一些大规模的数据的一些系统 。 传统上面我们有图书馆 , 对 , 我们那个四五十年前我们发明的关系型数据库 , 去存这种数字跟字符 。
而到了这种 AI 的时代来说的话 , 我们用向量数据库去保存这些图片 、 视频 、 文本 , 然后让我们能够用一种自然语言的方式 , 用一种语义的方式去高效的去检索这些图片 、 视频这样的非结构化数据 。
所以向量数据库其实是早于生成式 AI 的 , 它并不是只在生成式 AI 这个场景有作用的 , 对吧 ?
因为你创业 8 年前 , 那那个时候你是看到了向量数据库怎样的一个前景啊 ?
对 ,其实向量这个概念 , 它是在生成式 AI 的这一波革命里面 , 把我们推到了风口浪尖 ,因为它变得更加重要了 。
对 ,但是其实早在七八年前 , 向量数据库就已经在很多的 AI 领域被用起来了 。 这个向量这个基本的数据类型的话 , 它并不是说这种大语言模型所独有的 , 它本质上是这种神经网络所独有的 。
神经网络之间 , 还有神经网络内部 , 还有神经网络跟外部的数据交互的时候 , 它用的这个基本的数据的交换的格式跟单位 , 就是这个特征向量 , 就这个 embedding。
所以其实在早在 2018 年开始 , 我们其实也服务了很多的这种上一代的 AI 公司 。 对 , 那个时候的话 , 可能大家是这种卷积神经网络啊 ,是 RNN, 对不对 ?
从生成式 AI 到现在 , 比如说我们说过去三年的时间 , 然后向量数据库这个领域有发生非常大的一些变化吗 ?
第一个数据量变得更大了 , 第二个来说的话 , 就是我们看到应用场景越来越多了 。 数据量的变化 ,其实我们看到就是说 , 它在五六年前的话 , 可能谈到这种几千万的数据 , 上亿的这种数据就比较大了 。
现在已经像这个百亿 , 甚至千亿 。 然后第二个说 , 从应用场景方面来讲的话 ,也看到了更多的应用这种场景 。
现在除了这种跟大语言模型 、 知识库 、RAG 的应用场景 , 同时的话 ,也看到了说在不只是说在模型这个推理这个阶段 , 可能在模型的训练这个阶段 , 做数据的清洗啊 , 然后包括说在自动驾驶这个领域里面来说的话 , 要处理各种这种多模态的数据 , 包括这种从那个雷达 、 从那个摄像头扫过的各种的数据的这种清洗 ,也会需要用到向量数据库
。 然后在这种电商里面做推荐 、 做风控 、 做欺诈检测等等。 然后还有这种在 AI 制药里面 , 可能说我们要看到就是说去分析一个这种蛋白质的三维结构 , 分析一个这种基因的这种序列 。
现在的话有更多更多的算法 , 用向量的方法把这些数据把它转化为一个特征向量 , 再用向量去做一些新药的这种研发 , 这种做基因的一些筛选 。
随着这个应用 , 就是随着这个数据量的增大 ,也随着这个应用场景的增多 ,其实我们也看到了第三个趋势 , 就是说现在向量数据库的那个成本 , 降低成本也成为了一个大家迫切的一个需求 。
所以接下来你们非常重要的 milestone 是什么 ? 是要去支持更大的规模 , 还是要去把成本降得更低 , 还是别的什么 ?
我们有两个方向的一个考虑 。 一个方向就是说 , 我们是要帮更多的用户去解决更大的这种数据的这种场景 。
对 , 所以在过去的几年里面 , 我们其实看到的更多的是数据库的在线的这种服务 。 我们现在看到这个数据量增大以后来说 ,也出现了很多离线的这种场景 。
这也是我们现在正在做的一个很重要的事情 , 就是说从一个单一的向量数据库系统 , 我们觉得要变成一个向量数据库 , 跟那个 vector lake, 就跟一个基于这种非结构化数据的数据库结合的一个产品 。
所以的话 , 向量数据库来说的话 , 它还会继续去承载这样的在线的一些服务 。 这些服务来说的话 , 它对性能延迟比较敏感 , 它对准确度要求也很高 , 对不对 ?
然后来说的话 , 另外说你在有很多很多的数据的情况下, 就使得说你对每一个数据做一个实时的一个查询的话 , 这个就可能就第一个很挑战 , 第二个说你的收益比较不那么高了 。
这时候就是说 , 就会变成一个对于海量的数据做一些离线的一些分析 。 它并不需要每一天 , 或者说是每一分钟去跑一个这种任务 。
它可能说是以天为单位 , 甚至以周为单位 ,以月为单位去跑 ,但是它要跑全量的数据 。 而全量的数据可能就不是说是几亿那个几十亿了 , 可能是几百亿 、 几千亿 。
对 。
其实我也有个好奇啊 , 刚才你提到这三年一个很大的变化是大家的数据规模越来越大 。 那现在你见到的最大数据规模的这样的一个公司或一个产品 , 它是什么呀 ?
它为什么需要那么大的数据规模 ?
没有对手?12:54
我们有一个客户是全球最大的 IT 公司之一 , 它要做的一个产品就是说 , 要用向量数据库去检索互联网上的所有的信息 。
它相当于就是说要做这个互联网规模的语义查询 , 它要把互联网上面的每一个网页 , 把它都变成一个向量 。
它做这个的原因是什么 ? 它是提供什么样的服务给大家呀 ?
就是说提供最终的话 , 比如说 AI 的搜索 ,AI 的搜索 。
它是比如说 like 博查或者类似这样的做 , 或者 Bing 之前也做过这样的 search API。
对对对 , 就现在我们基本上每一个这种大语言模型这个查询 , 它都会有 online 的这个搜索这个过程 。
如果你要达到一个最好的一个精确的程度 ,ideally 的话 , 你是希望能够检索互联网上所有的信息 。
OK, 所以这样的客户对于数据的量的要求几乎是无限的 。
对对 ,并且这里还有一个点就是说 , 这个数据的产生我们还在增加 。 像 AI 的搜索跟 RAG, 它其实用的技术其实差不多 。
对 , 它本质上来说的话 ,RAG 可能就是说是一个私有的一个知识库 。 对 ,AI 的搜索的话 , 可能更多的是把在线的这些公有的这个信息 , 把它变成一个公有的一个 , 把互联网变成一个公有的一个知识库 。
对 , 然后其实这两者来说的话 , 它用的技术的底座其实是类似的 。 比如说像 AI 的搜索来说的话 , 它主要就是说它是数据量特别特别的大 ,但是对于知识库来讲来说的话 , 它的可能单个的库 , 它的数据量没那么大 。
但是它的话 , 可能一个企业它可能要服务一万个客户 、 十万个客户 , 甚至一百万家客户 , 每个客户都有一个比较小的一个知识库 。
比如说每个客户如果说它有一万条的那个知识 ,在它的本地的知识库 , 如果有一万家客户的话 , 这就是对一个亿 。
如果说是你有那个 , 如果你有十万的话 , 就是十个亿 , 对不对 ? 在这里面说的话 , 提出的更多的要求来说的话 , 可能就不是数据规模 ,因为单个的库不大 ,但是需要你在那个数据管理这个层面 , 能够把这个一万个客户 、 十万个客户中间能够做隔离 , 能够保持他们的数据的独立性 、 数据的安全性 。
之前我看到一篇文章啊 , 就贵新人的报道 , 然后文章的标题就是 《 我们没有对手 》。 然后当时你提出这句话的时候 , 是一个什么样的场景啊 ?
因为就是我稍微做了一些研究 , 发现其实好像也并不是没有对手啊 , 这里面还是有不少的竞争在的 。
可不可以稍微讲一下背景和当时, 当你说没有对手的时候 ,是指在什么时间段 , 或者有没有一些限定语 ?
第一层含义呢 ,是我们曾经没有对手 , 就是曾经来说在这个赛道里面来说 ,是真的没有一个友商 。 这是一片荒漠 。
当时我们在 18 年做向量数据库的时候 , 全球没有这个概念 。 当时来说的话 , 当时真的挺难的 。
对 , 就走在一个 , 就走在一个无人区里面 ,因为我一直没有进入这个 , 证明大概率的话你走错一条路了 , 对不对 ?
是吧 ? 你这条路 , 对 , 可能就错了 。 对 , 所以的话 ,在过去几年里面 , 我们看到更多的这个友商能够进入这个赛道 , 看到了这个向量数据库成为大家追逐的一个热点 ,其实我们心里面是很喜悦的 。
我自己理解啊 , 就这个竞争其实还是比较激烈的 。 我稍微梳理一下啊 , 我觉得它来自四个方面 。
第一个是就是比如说以 Pycom 为代表 ,在商业策略上和你们选的不一样 , 你们是开源路线 ,他们是闭源 , 然后他们现在估值 7.5 亿美金 , 那你怎么看 ?
我们两家公司的话应该是咬得很紧的 。 像刚才你提到他们的估值是 7.5 亿美金 , 我们是 6 亿美金 。
我们最大的一个区分点就是说是开源跟闭源 。 让我再做一次 , 我还是会做一家开源的公司 。 对 ,因为我对开源是有一个很好的一个信念的 。
因为开源的话 , 本质上来说的话 , 可以促进这个知识的传播 、 技术的交流 ,也可以反过来能够促进你的技术以更快的方法去迭代 。
对 。
所以今天你们和 Pycom 最大的竞争优势 , 你认为是来自开源吗 ?
我觉得开源肯定是我们最大最大的一个长久的一个优势 。 如果说具体比产品跟技术来讲的话 , 我们的产品的话比 Pycom 在性能这个层面来说的话 ,是有一个三到五倍的一个领先的优势的 。
但是我并不想认为就是去讲我们的跟它的竞争的差异点 ,是在我们三倍 、 五倍的技术的一个领先的优势 。
因为我觉得就是说技术的领先优势最终来讲来说的话 , 技术都会平权 , 对不对 ? 但是所以我觉得就是说 , 虽然说我们现在技术产品领先一个升位 ,但是这个升位的这个来源的话 ,是来自于我们开源跟开放 。
因为我们有了开源开放 , 所以我们能够在全球能够有更多的这个开发者用起来 ,有更多的开发者 ,他们又能够帮我们反馈更多的一些需求 , 让我们去迭代我们的产品 。
所以在之后的竞争中的话 , 我觉得其实不取决于说你现在在什么位置 , 只有开源跟开放 , 然后我们能够有更多的开发者能够拿到更多的企业的这种需求 , 去让我们更快的去迭代我们的产品 , 让我们有个更清晰的一个 roadmap,以后少走弯路 , 少犯错误 。
这可能是我觉得跟其他的闭源公司去做一个对比的时候 , 我们的一个底气 。
待会我们可以再多聊一聊开源 、 闭源这个路线的选择 , 包括开源它到底意味着什么样的这个优势和它的商业的机会到底要怎么去给它这个实现出来 。
我们再回到竞争角度 , 一个是说开源与闭源路线的选择 , 然后你们和这个 Pycom 咬得很紧 , 然后大家两条路线好像都在各自的领域也都有一些收获 。
我其实也看到有另外一些同样在开源赛道的你们的竞品友商 , 比如说 Qdrant, 比如说 FAISS, 还有一家叫 Weaviate。
那从你的角度看 ,他们有带来一些冲击 , 或者有蚕食掉一些你们的市场吗 ?
首先我这里要指出一下,FAISS 的确是在那个向量这个检索方面的话 , 很有名的一个项目 。 我们 Zilliz 公司的话 ,是这个项目除了 FAISS booker 之外, 最大的参与者跟贡献者 。
所以的话就是说 ,FAISS 来说的话 ,其实就它有一点像一个这种算法集 , 它是这种向量检索的一套这种算法集 。
所以的话 , 我们的开源的 Milvus 其实是大量的去跟 FAISS 去合作 , 我们也大量的使用了那个 FAISS 做我们的算法的一个底座 , 做我们开源算法的一个底座 。
然后的话 , 的确我们也看到像现在有更多的一些开源项目出来 , 可能大家都会有自己的一个这种切入点 。
对于我们的 Milvus 来说 , 第一个来说的话 , 它的性能是特别特别好的 ; 第二个来说 , 它的可扩展性是特别特别好的 ; 第三个来说的话 ,其实跟第一点跟第二点是比较相关 , 就是说我们 Milvus 项目的整体的这个 TCO 是最优的 。
这个 TCO 就既包含了我们说的用户前期要使用的时候 , 你的机器跟硬件的投入的这个成本 。 所以一个数据库你的性能越好 , 那么意味着你需要的硬件设备可能会就会比较少 。
然后第二个来说的话 ,是你整体的这个开发的这个成本 。 而 Milvus 来说的话 ,是在过去的七八年里面 , 我们跟全球的 AI 的生态的各种框架 、 各种大语言模型都做了一个很好的一个整合 。
所以的话 , 就是用户的话 ,他的那个开发会更方便 ,并且我们也支持了更多的这种数据类型 , 支持了更多的这种数据的查询的方式 。
对 , 所以你看到今天的 Milvus 已经不简单只做一个向量数据的这个近邻的搜索了 ,其实它可以做这种基于标量的过滤 , 可以基于标量跟向量的那个混合查询 。
对 , 可以做数据的聚类 , 可以做分类 , 可以做 re-ranking。 对 , 所以的话 , 我们这边的话 , 让降低了那个开发者的使用的这个成本 。
第三点来说的话 ,也是我们一直在做 , 就是说我们在降低我们用户的这个维护的这个成本 。 对 , 所以在它生产上线以后, 它运维的用 , 我们提供整套的这种那个运维的这种工具链 , 包括数据的可视化 , 包括跟这种传统的这些运维啊 、 数据采集系统的整合 , 跟它的数据的权限管理系统的打通 , 跟它内部的企业的这个 , 比如说它的那个 access control 的
这种系统的权限系统去打通 。 对 , 使它整体后面的运维跟维护的成本也会比较低 。
然后第三个 、 第四方面的竞争啊 , 我理解其实还是来自于比如说传统的数据库 , 像 MongoDB, 它有可能也会加向量数据库 , 像 PostgreSQL 它可能也会加 。
然后另一方面 ,不管是 LangChain 还是 LlamaIndex, 它们也可能会把向量数据库整合成它们整个这个生态系统当中的一个部分 。
那在这个里面 , 好像一个独立的这个向量数据库的项目或公司或产品 , 它会不会有一天被人吞掉呢 ?
你会有这种担心吗 ?
其实你刚才提的是两个问题 , 我一个一个去回答一下 。 第一个呢 , 就是说对于传统的数据库加上一个向量数据库 ,其实这是一个临时的过渡的方案 , 就在它数据量比较小 、 场景比较单一的时候 , 它是可以用的 。
对 , 等它的场景比较关键了 、 数据量比较大了 , 它们是会迁移到一个专用的向量数据库系统之上去 。
所以这里面举一个类比来说的话 , 这个在传统的数据库里面加上一个向量的搜索的一个模块 , 就有点像在新能源汽车里面这种增程式的汽车 ,在燃油车里面加一个电池 。
我觉得这是一个过渡的方案 , 它永远不能跟一个原生的方案去比较的话 。 第二个来说的话 , 就是说你刚才说的一些开发的一个框架 , 比如说像 LangChain 啊 、 像 LlamaIndex, 这一块来说的话 , 我就从天然上面 , 从第一天开始的话 , 大家就是在一个不同层次的一个产品 ,不存在说竞争的 。
我们看到就是说 ,并不存在说一个开发框架会把一个数据库系统把它包住 , 甚至会取代一个数据库系统 。 而我的判断就是说 ,以后在 AI 这个生态里面 , 开发者框架会进一步的细分 。
对 , 可能除了现在有名的框架里 , 会出现更多更多细分的这种框架 。 如果说我们看到像过去几年里面的 , 例如说我们说在一个 Web 的一个开发框架里面 , 一般会说的有应用层 , 包括我刚才讲的这个框架都是属于应用层的这种框架 。
对 , 然后后面还有个 middleway,有个中间阶层 , 然后最下面才是说是那个数据库跟操作系统这个层面 。其实我们跟 LangChain 跟那个 LlamaIndex 的话 , 都是这种战略合作的伙伴 , 我们也经常跟他们生态去合作 。
刚才提到的各种各样的竞争对手里面 ,有哪一个是你最担心的 ?
与其去关注竞争对手做什么事情 ,不如说关注我们自己 。 最担心的就是说我们能不能以更快的速度去创新 。
开源变现24:20
说到开源 ,其实我俩在录这一期播客之前 , 正好吃午饭的时候 , 然后另外一位朋友我们一块在吃 ,他说他最近见到 Reno Xing, 就 Databricks 的 co-founder, 然后他问 Reno Xing 说 :" 如果可以重新选择 , 你一开始还会开源吗 ?"
然后 Reno Xing 告诉他 :" 可以重新选择 , 我不要再做开源 , 我上来就要做闭源 。" 那想问问你 , 你怎么看啊 ?
就是如果可以重新选择 , 你还是会一开始做 Zilliz 的时候就做开源吗 ?
如果要我重新选择 , 我还是会选开源 。 对 , 如果没有开源 , 就没有 Databricks。他们曾经是通过开源的这个社区影响力 , 让他们能够成功的融资 , 能够让他们拿到了第一批的这种用户 。
对 , 然后时至今日的话 , 我觉得在那个 Databricks 跟 Slowfire 的竞争中间来看的话 ,因为有更多的开发者在用它的这个系统 , 它的生态位的这种定位 , 它其实以后可能会有比 Slowfire 更大的成长的空间 。
所以你会认为开源对于 Databricks、 对于 Zilliz 来讲是一个捷径吗 ? 还是它是一个不得不做的选择 , 你可能没有第二条路 ?
首先这肯定不是个捷径 。 开源其实要你付更多的耐心 。 开源可以是你中间的一个护城河 , 你是要掌握开发者的心智 , 对吧 ?
你希望很低成本的进入他们的那个工具站 , 你希望低成本的让他们来学你这个东西 。 一个开源的产品来说的话 , 它在 GitHub 上面可以直接把它 download 下来就可以使用 ,并且来说的话 , 它可以去看你的那个实现的这种细节 。
然后所以我觉得开源天生就是更加招人喜欢的 。其实像 Reno Xing 他提到他为什么能够再来一次 , 就一定不会选开源的原因是 ,他认为他们开源虽然做得不错 ,但是他后来发现为了小 PMF, 好像要二次创业一样 , 再去做一个闭源的产品 。
所以把创业要跨越的一座大山 , 变成了跨越两次大山 。 这个你怎么看 ? 这正好就是说他今天那个成功 , 还有他自己 3A 的壁垒的一个很重要的一个所在 。
就他跨越了两座大山 , 你跨过去很不容易 , 你的竞争对手要跨越过去肯定也很不容易 。 就我跟 Reno 也聊过 ,他们的话其实也创造性的那个摸索出了一个新型的一个开源的商业模式 。
像我们知道 , 像传统的开源的商业模式的话 , 就是说那个 OpenCore 这种商业模式 , 基本上就是说我会做一个开源的一个核心 , 然后我的商业化产品会加一些这种斜切的服务 。
对 ,但是核心是没有什么区别的 。 像这么做的一个好处就是说 , 你基本上的话只用做一次研发 ,但是你的一个弊端就是说在商业化的时候 , 你很难回答一个用户的灵魂拷问 : 你跟开源 , 你商业化产品跟开源有什么区别 ?
我为什么一定要付这么多钱买你一个商业化的产品 ?Databricks 走出了一条完全不同的一个道路 , 它的模式叫做那个 Dual Core, 它有一个 open source 的 core, 然后同时来说它有一个商业化的 core。
商业化的 core 是闭源的 。 对 , 然后它会把商业化的 core 设计成跟那个开源的这个 core 是基本上它用户体验 、 接口 , 还有产品形态上是一模一样的 。
所以两边是完全兼容的 , 所以用户可以很好的能够迁移过来 。 对 ,但是来说的话 , 它的那个商业化的 core 来说的话 ,是完完全全是重写的 , 重新设计 , 重新去写的 。
它的商业化的执行引擎就是用 C++ 去写的 ,而它开源的这个执行引擎的话是用 Java 去写的 。
所以它要完全两套人马写两套东西 。
所以最重要的是它就要保证我的商业化的 core 从设计 、 从功能 、 从性能各方面来说的话 ,是比开源的这个 core 是要领先一个身位的 。
对 , 所以这样的就解决了用户说我为什么要为你的商业化产品付钱 。 你告诉他就是说我提供跟你的开源产品一样的用户体验 , 你今天跑在开源上面 , 你明天你就可以无缝的迁移到我的闭源上面来 。
你的迁移成本基本上可以忽略 ,但是来说的话 , 你的产品体验更好了 , 你的性能更好了 。 你解决了这个差异化的一个问题 , 那用户可能就有更好的一个付费的一个动力和意愿了 。
但是它要解决的一个很大的一个挑战 , 就是说本质上你是在做两个产品 , 一个开源的产品面向于开源社区 , 另外一个是闭源的产品面向于你的商业化 ,并且你还要保证你的闭源产品跟开源产品既兼容又要比它好 。
对 ,并且这个好还是一个动态的好 。 对 ,因为你的开源产品也要不断的去迭代 。 所以的话 , 基本上你要维持一个这种移动的时间窗口 , 就是我这个闭源产品永远比开源产品好 12 个月 、18 个月 。
所以这里面来说 , 对你的这个工程的能力 , 对你的产品的设计 , 对你整个的这个组织架构的这个能力的话 ,有一个很大的一个挑战 。
所以你们现在也是选择了这个 Dual Core 的路径吗 ?
对 ,其实我们当时在 18 年、19 年的时候 , 我们就决定了我们要走一条这种 Dual Core 的一种模式 ,也不容易的 。
要求你的工程师团队跟你的产品团队要有很强的执行力 , 要有很强的这个迭代的这个速度 。
那你怎么看 DeepSeek 的开源对它带去的价值和帮助 ?
DeepSeek 跟我们这种数据库公司可能不是在同一个维度 , 它要追求的就是说我如何作为一个后发者能够迅速的占领心智 。
它用开源也解决了它的用户的获取 , 跟占领心智 , 跟占领开发者最宝贵的开发者时间这个目的 。
一个开发者既然说我安装了 DeepSeek, 我这个公司安装了 DeepSeek, 大概率就不会钻其他家的那个模型了 。 所以我觉得它解决了这个占位的一个问题 。
现在你会认为大家选开源已经不像一开始那样 , 开源其实是为了能够吸引更多的人, 开发者加入我的生态 , 来帮我把这个产品一起做得更好 。
这是不是已经有点失去了那样的纯粹的一个开源的理想 ,而是其实开源更多是为了某种竞争 , 为了某种美誉度 , 或者为了某种得到更多人的喜爱 , 从而获得竞争优势 ?
我觉得更多的是就是你开源的协作的方式 , 现在也在发生很多的一些变化 。 像的确开源来说的话 ,有更多的开发者能够引入一些外部的开发者 , 这是一个比较好的 。
但是来说的话 , 你引入了太多的这种外部的开发者以后来说的话 ,其实你的项目的管理 , 还有项目的方向的这个引导 ,也会出现很多的问题 。
所以我们其实现在看到更多的开源公司的背后, 开源项目背后有一个商业化的公司在引领这个社区 ,在引领这个项目 , 为这个项目做更大的一些贡献 。其实开源我觉得最大最大的一点来说的话 ,是把你的技术把它展开来 , 把它透明化 ,而不是一个黑盒子 。
很多工程师他倾移于一个开源项目 ,并不是说我一定要成为那个项目的贡献者 。 更多的来说的话 , 就是说他会觉得我自己有一个成长 。
第一个来说 , 我看到这个项目的时候 , 我如果觉得这一块的一些架构是怎么做的 , 我可以自己去看代码 , 我可以很了解你的项目的架构 , 你的项目到底是怎么去设计的 , 这个功能去怎么去实现的 。
所以它需要的时候 , 它有这样的一个透明度 。 第二个来说 ,在海外来说的话 ,他们选择开源项目大概率不是为了说我为了不付钱 。他们很多项目就是说我就是要防止我的技术栈的这个锁定 。
如果我用了一个这个完全闭源的项目的话 , 那我完完全全以后就只能走下去了 ,并且我没有任何的这个 visibility。
一个开源项目来讲的时候 , 我至少还是保留一个退路来说 , 哪一天如果我不跟这个公司合作了 , 我可以转向开源社区 , 我可以自己建一个团队 , 基于开源项目自个去做维护跟升级 。
所以现在你们这个开源的项目里面 ,有多少的核心的有价值的代码 ,是真的来自你们团队之外的其他的开发者提供的呀 ?
我们现在社区的开发者大概有 300 多个 , 这里面只有 20% 的这个项目的开发者在我们公司 ,但是他们贡献了 80% 到 90% 的代码 。
对外面的一些社区的开发者来说的话 ,他们可能更多的是去改一些 bug, 做一些周边的一个工具 , 一些增强啊 、 一些整合啊等等。
对 , 我觉得这也是比较符合我们的这个预期的 。 对 ,因为对一个数据库系统来讲来说的话 , 成为一个核心的开发者的话 ,他需要很长的一个时间 。
你如何定义这一段创业的成功啊 ? 你觉得做到什么样的水平 , 你会觉得这一次满意了 ? 因为其实这已经是第七年、 第八年了嘛 ,其实还是是这个青春当中已经这个投入了非常多时间 , 可能接下来还要再投入很多时间 。
创业心路33:08
那你对它的期待期许 , 就成功是什么 ?
我希望我们其实有幸来说的话 , 成为全球第一个去探索非结构化数据处理 、 探索向量数据库的 。
我希望到我退休的那一天的话 , 回顾这段里程的话 , 我们不只是一个先驱者 , 我们还是一个集大成者 , 我们还是个成功者 。
你有这样的恐惧吗 ? 就是成了先驱 ,但最后没有成为最后的领先集大成者 , 摘到最后的果实的人。
有 ,因为首先的话 , 你走在一个这种无人的赛道里面来说的话 , 你作为第一个创新者的话 , 你就是首先你要面对恐惧感 , 技术更新迭代的一个长期的一个压力 。
而这个在 AI 这个时代里面的话 , 这所有东西又被加速了 。 基本上任何一个领域里面 , 你会发现就是说做创新者来说的话 , 你可能要尝试 1000 种方法 , 然后要排除里面的 999 种 , 留下那一种能够 work。
但是作为一个 follow 的话 , 它就照着你成功的这个事情再做一次就好了 。 唯有这种你能够长期的去保持你的创新 , 然后迅速去迭代你的产品 , 这才是你一个长期的一个竞争力 。
你在公司内部用什么样的方式 ,不管是管理上还是文化上还是其他什么层面的 , 来保证公司一个七年的公司还可以持续的创新迭代 ?
我觉得创新是不能靠管理的 , 就一管就死 。 对 , 创新就是如果你要做一个创新的公司 , 那你就去招这些有创新精神的 、 愿意去创新的 、 愿意去快速迭代的这些小伙伴来加入你们 , 对不对 ?
到现在创业 8 年了 ,有什么你特别想对就是 8 年前刚开始做的自己说的话吗 ?
我也许会劝我们 8 年前自己就不要创业 。 对 ,因为创业的确比你想象中要难太多太多了 。 你基本上停不下来 , 基本上你解决了一个问题 , 然后第二天就有新的问题 , 然后你解决了一个层次的问题 , 你就会有新的问题 。
公司的每一个阶段 , 每一个发展阶段 , 每一个轮次 , 每一个商业化的不同的这种阶段 , 都会有不同的问题 。
所以创业这条路来说的话 , 我会对自己说的话 , 如果你选了这条路 , 那希望这个事情是你的一个 lifestyle,是你一辈子想做的事情 , 要不然的话你可能会崩溃的 。
你最接近崩溃的时间是什么时候 ?
基本上这种事情可能最坏的情况下每天会有几次 , 好的情况下的话 , 可能至少每一两个星期会有一次 。
其实你公司已经做到 6 亿美金的估值了 , 这在很多人看来已经是一个很好的成就了 ,但是你还在如此频繁的陷入崩溃 。
可不可以讲一个你最近一次感到崩溃的故事 ?
我想一想 , 过去差不多两年的时间里面的话 ,是整个跨业里面经历了困难最多的 。 因为在两年之前来说的话 , 我们都是做产品 、 做开源 、 做技术 , 基本上是在自己的一个舒适的一个区里面 。
然后在过去的两年的话 , 我们公司第一次做商业化 , 对于一个像我们这么强工程师背景的团队来讲的话 , 我们大部分的同学之前也没接触过商业化 ,并且我们还要给自己比较高的一个增长 。
对 , 这个时候其实压力是特别大的 。在过去的像 2024 年的话 , 市场发生了一些调整 , 对 ,有一些这种尖端的公司的话 , 它这个就死掉了 。
这个东西的话就跟我们做得好不好没有什么关系 。
就你们有一些客户突然就消失了 。
对 , 曾经是当时是我们那个 , 我们也是蛮大的一个客户 , 那个就是也是美国那个 AI 的最头部的公司 , 然后它马上陷入了一个困境的 。
所以的话 ,在过去 18 个月里面是经历了一波那种回调 , 前面的 10 大的客户流失掉了 , 然后你还有增长 , 你要搞更多的客户 , 先要填他们流失的这个坑 , 然后还要有更多的客户能够维持你这个增长这个趋势 。
那就真的就是觉得哎呀 , 这个就很痛苦 。 并且整个团队来说的话 ,因为也是第一次做商业化嘛 , 然后的话在很多的这种组织啊 、 架构啊 、 流程啊 ,也在一边做一边在搭建 , 基本上就是在一边开飞机 , 一边还要换引擎 , 还要做组装 。
这段时间是相当相当痛苦的 。
那做到现在有一些什么样的心得了吗 ? 就是作为工程师背景的创始人, 可能之前也都不需要去面对客户 ,不需要去做销售 ,但做到现在你开始有了一些这个技巧也好 、 方法论也好 , 这个有可以分享的吗 ?
我觉得首先来说的话 , 你肯定是要找到合适的人, 我们可以在招人上面花更多的时间 。 对 , 虽然说我们在招人上面已经花了很多时间 ,但是我觉得你永远不要认为你在招人上面你花了足够多的时间 。
第二个就是说在商业化也没有什么好恐惧的 , 我再做一次 , 我可能一样的会经历这个痛苦的这个阶段 , 可能犯的错误不一样 , 我就坦然接受吧 。
更多的来说的话就是说 ,在错误中能够迅速的能够恢复过来 , 能够迅速的能够去调整 , 既调整自己的心态 ,也调整整个团队的心态 , 让整个团队的士气不要失去 。
怎么能够让团队的士气在遭受打击的时候不要低落 ? 这个你有什么办法 ?
最终还是打胜仗 ,不要重复的犯错误 , 一定要尽快的从一个错误里面找到经验能够跳出来 。 这是第一个 。
第二个就是说我们最终的目标就是要少犯错误 。 现在其实就我们的技术啊 、 产品啊都有领先的优势 , 我们增长也不错 。
这个时候就是说你要有更好的一个战略的一个定力跟思考 , 决定什么东西要做 , 什么东西不要做 , 避免犯太大的原则性的错误 。
我们每个人都不完美 , 我们要学会跟自己达成一个和解 。 对 , 要不然的话你自己会把自己给击垮 , 你自己从内部把自己给击垮了 。
对 , 所以先接受自己的不完美 。 我看历史上很多的竞争 , 最终不在于你做了什么 , 可能在一个极度的压力的情况下的话 , 你的对手可能比你多犯了两个错误 。
理想与现实39:50
现在有什么道理或者有什么话是你 8 年前特别相信 ,但现在已经 totally 不相信的吗 ?
我在创业之前 , 我绝大部分是一个理想主义者 。 对 ,但是这过去这 8 年的这个创业啊 , 慢慢的已经褪去了我作为理想者的这个彩色的这个外衣 。
现在留下来的更多的是一个这种灰色的这个内衣 。
有一个比较明确的 , 就是某一个事情你想到它会觉得我过去理想主义的自己 、 彩色的自己会那么想那么做 ,但现在同样一件事情放在今天穿着灰色内衣的自己 , 可能就不会那么想 ,不会那么做嘛 。
在团队建设跟管理这个层面 , 我曾经觉得完完全全透明的 , 无话不说是个最好的管理方式 。 但现在看来的话 , 就是说这个要针对于不同的人, 针对不同的场景 ,也针对不同的团队的规模跟不同的阶段 。
曾经我也觉得就是说一个最好的公司是不需要管理的 , 你就不应该有管理 , 对不对 ? 但是你的团队越来越大以后, 你会觉得就是说管理还是需要的 。
曾经我自己作为理想主义者 , 会把管理跟那个跟官僚可能 somehow 会画一个等号 ,是吧 ? 少一层管理就少一层官僚 。
但是现在来看来说的话 , 就是说管理真的是一门科学 。 如果回到技术这个层面来讲的话 , 作为一个工程师来讲的话 , 你追求自己的内心的愉悦感 , 那肯定是创新永无止境 , 我不停的做的更好 , 对不对 ?
但是从一个商业世界里面来说的话 , 就是说你足够好就可以了 , 你比对手好那么一些 ,也不要好太多就可以了 。
对 , 所以从这一点来说的话 , 就是说坦白讲 , 就是说我们也知道像现在像曾经的话 , 我们觉得像英特尔的话就挤牙膏 , 对不对 ?
它的创新 , 它的那个
CPU 的这个创新在迭代在挤牙膏 。 现在那个现在英伟达基本上也在慢慢的挤牙膏 , 对不对 ? 是吧 ?
但是我觉得就是说这两家公司曾经可能都是在这个硬件芯片里面最成功的一家公司 , 就是说他们能够把握这个我商业化的节奏跟技术创新的节奏 。
我在这个时间节点我足够好 , 我领先于这个所有竞争对手就可以了 。 但是我个人觉得就是说在技术这个世界里面来说的话 , 应该还是要多一点这种理想主义的 。
虽然说我现在慢慢的话 , 那个理想主义的外衣已经所剩无几了 。 对 , 可能剩得少一点了 ,但是我个人感觉就是说你是从哪一边出发的还是很重要的 。
因为几年前我是从一个纯粹理想主义出发的 , 就基本上除了追求技术的卓越 ,其他东西都不去想 。
但是这个反过来说的话 , 到今天为止的话 ,也是我们公司现在赖以成功的一个根本 。 所以我们现在有更好的技术 ,有更好的一个产品 。
对 , 虽然说我们现在的话要把整个公司打磨的更加那种商业化 , 更加那个 business savvy。 当这个彩色的理想主义的都慢慢的褪去的时候 , 当这个灰色的这个现实主义 , 对不对 ?
会左右你更越来越多的决定的时候 , 你还是会在自己的内心的深处 ,在你公司的某一个角落 , 会保留下一片那种小小的一个天空 , 还是彩色的 , 还是浪漫的 , 还是有情怀的 。
在整个这个 AI infra, 从大模型到 infra 到数据库 , 就整个我们大的这个很泛的领域来说 , 你目前最看好哪些公司 ?
如果你自己要不管买股票还是一起市场投资 , 你会投哪些公司 ?
整个 AI 赛道里面 , 我觉得像亚马逊的云平台可能有更好的一个增长 ,因为 AI 现在到了一个临界点来说的话 , 最终的话是一个能源跟基建能力的一个比拼的 。
对 , 所以的话这个里面来说的话 , 像这些大的巨头来说的话 , 它有资源嘛 。 所以 AI 这一波我就判断的话 , 对这种公有云的发展是有利的 。
公有云可能会越来越重要 。 接下来进入这种大规模的数据中心的话 , 都是会成为云的基础设施的一部分 。
这是一块 。 然后另外一块来说的话 , 大模型肯定是底座 , 这就不用说了 。 这个大模型公司肯定是那个尤其是头部的几家 。
另一个来说的话 , 我觉得就是现在已经出现了一些比较好的 AI 的应用的一些公司 。 对 , 这些应用的一些公司来讲来说 , 像我自己用的比较多的 AI 的工具的话 , 就一个是 ChatGPT, 一个是那个 DeepSeek, 第三个就是 Cursor。
我发现用 Cursor 其实管理自己的个人知识库 , 然后用它去写文章都是很好的一个东西 。 我现在基本上写东西我就不用 Word 了 , 我用 Cursor 来写 。
好 , 今天谢谢星爵的时间 , 就是十字路口录了一期非常硬核的播客 。 那听到结尾呢 , 应该大家都是真爱 ,也希望这个 Zilliz 可以继续有很好的发展 , 可以继续保持 300% 的增长率 ,也希望这个星爵有机会可以再来做个十字路口 。
谢谢 。
谢谢 。
如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 。 最后欢迎你加入十字路口的会员群 , 我们鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。






