开场0:00
欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。
我们长期观察 AI 创业 , 如果你正在做一件让你自己感到兴奋的事情 , 哪怕它还只是一个想法 , 我们都很愿意听你聊一聊 。
我会认真看每一条留言
。
嘿 , 我是 Koji。 那我们今天与 ChatGPT、 与 OpenClaw、 与 MineContext、 与 Claude Code 的互动方式 , 很可能不是最有效率的方式 。 那这个暴论啊 , 相信它的人还不少 , 那也有一些创业者在为之努力 。
我们今天的嘉宾之一 , 黄柏特 ,也是其中之一 。 你好 , 柏特 , 欢迎来到 《 十字路口 》。
呃 , 哈喽 , 大家好 , 我叫柏特 。
柏特呢是 AirJelly 这款产品的创始人。 那今天和柏特一起来 《 十字路口 》 的也是我们老朋友一豪 ,他的天使投资人。
谢谢 Koji。
我们还是先从快问快答开始哈 ,因为一豪之前已经快问快答过了 , 所以我们就直接从柏特来 。 那请问你的年龄 ?
啊 ,24。
毕业院校 ?
呃 , 西安电子科技大学 。
你的这个 MBTI 和星座 ?
ENTP, 摩羯座 。
一句话介绍一下 AirJelly?
AirJelly 是你的主动式上下文感知伙伴 , 它能够记住你呃在任何地方做的事情 ,并且在恰到好处的时候主动来帮助你 。
嗯 , 然后咱们目前的融资的情况呢 ?
呃 , 我们是刚完成了天使轮 , 然后第二轮正在紧锣密鼓地推进中 。
那目前团队的规模有多大 ?
呃 ,8 个人。
可以介绍一下创业前在做什么吗 ?
校招的时候进了字节 , 做了半年的开源项目的产品经理 , 叫 MineContext, 通过周期性的屏幕截图去捕获你的上下文信息 , 然后进行存储和分析 。
他在 GitHub 上面有 5000 多个 stuff。 我第一次知道柏特也是因为 MineContext。 对 , 可不可以讲一讲 , 就从 MineContext 到今天创业做 AirJelly, 就这个中间的旅程 ?
产品与投资1:52
呃 ,MineContext 的话是我在字节做的一个开源项目 , 然后我们当时的理解是 , 现在所有的 AI 对话还是 chat 来获取 context, 那我们认为说 , 呃 , 直接对视觉进行理解应该是更第一性 、 更本质的 , 所以就做了这样一个产品 。
当时我们的理解是 , 通过周期性的截图 , 然后周期性每 15 分钟进行分析 , 做了这样一个东西 。 然后当时的话其实做的就单纯是一个记录 。
后续我们其实呃看了很多的产品 ,也做了很多思考 , 现在升级成的 AirJelly 它有几点不同 。 第一点的话是我们不再是呃按 15 分钟的周期性分析 , 我们是去分析你具体的事件 , 比如说你可以理解过去它是一个呃编年体的史书 , 然后现在是一个记传体的东西 , 所以它能更精确地了解你的任务和意图 。
那第二个点是 , 呃 , 过去我们没有做太多执行性的东西 , 现在我们让它加上了非常强的执行能力 , 我发现它形成了 1+1 大于 10 的效果 。
什么样的执行能力 ?
呃 , 就是我们相当于原生接入了呃 OpenClaw 它底层的框架 , 所以让它具有了非常强的一个执行能力 。 它可以各种调用 skill, 然后呃操作你的电脑 、 使用浏览器 , 然后叠加上你过去的呃获取到的各种记忆 , 所以它相当于是一个既有最强的 context, 同时又有非常前沿的一个呃模型执行能力 。
嗯 , 所以有一个非常好的 magical 的效果 。
哎 , 咱们刚才是说这个总结从 15 分钟变成这个按事件去 trigger 嘛 , 那目前咱们截图的频率是这个多快 ?
我们过去截图频率其实是 15 秒 、30 秒 , 就是我们其实也做过大量的方案 ,但我们现在想到一件最 sharp 的事情 , 嗯 , 就今天一定要给大家分享出来 。
呃 ,Cursor 重新定义了 Tab, 嗯 , 呃 Typeless 重新定义了 Fn, 我们今天其实想占据的一个心智或者重新定义的就是一个键 , 一个键 Enter。
嗯 ,Enter 的意思就是我们判断说当前乃至未来长期的趋势 , 人与人聊天还是要通过 IM, 那人与 AI 的聊天其实通过 chatbot, 人与外界信息交互的方式其实是通过浏览器的 search, 这三种方式它表达意图其实都是通过 Enter。
也就是说我们会在 Enter 的那一刻进行截图 , 获取你 Enter 那一刻的意图和相关的上下文 , 从而对你的意图和行为轨迹有一个最棒的建模 。
哎 , 这个还挺有意思的 。
是 。
嗯 , 就是每次 Enter 的时候就截一个图 ,因为那是一个关键的用户在表达自己意图的时间点 。
对 , 那是一个可以理解为是一种高光 。
嗯 , 哎 , 你们已经在内部开始测试就是用 Enter 作为 trigger 去截图 , 和之前比如说每隔呃 5 秒 、15 秒 , 就哪种的效果更好呀 ?
用了 Enter 之后, 首先它没有了噪音 ,因为我们之前一直解决不太好的一个问题是它可能到时间了 , 可能你是一个无序的浏览 , 它也截下来了 。
但 Enter 的话 , 我们能确保它一定是你的意图 。
一豪 , 就作为天使投资人, 你应该这个可以最先用到 AirJelly 啊 , 然后目前你这个用下来有一些什么样的体会 、 感受啊 ?
对 , 我觉得 AirJelly 最大的这种魔法时刻是有人看着你工作 , 这是一种非常神奇的体验 。其实我们都用了 MineContext 啊 , 用了这个 OpenClaw, 嗯 , 它的体验也非常好 。
嗯 , 它有一部分来自于对你本地文件的理解 ,其实有个大量的 context 注入 ,但是实际上我们的很多跨 IM、 跨飞书 、 跨不同的工具上的连续性的 context, 它可以很好的感知 , 基于这些又主动性地跟你交互 , 甚至规划特别长程和复杂型的任务 。
我们捕获的就是最有价值的 context。
就你是在什么时间点这个发现柏特 , 然后它是什么地方打动了你 , 然后让你决定做出投资的这个决策 ?
对 , 又到这个恋爱故事环节了 。 哈哈哈 , 就是我们是呃在去年其实 , 一个是 9 月底的时候 ,Claude Code 的 Agent SDK 发布 , 那个时候包括伴随着 post-training 模型出来 , 我们一直其实很关注呃垂直方向 context 收集 , 然后那个时候正好其实还是我们投的豆包的小伙伴也给我们讲到说 , 就在应该是 9 月 30 号 , 可能啊 ,是发布的 MineContext 呃自己的一开源产品 , 它有非常激进的 context
劫持的方案 , 我们觉得这个太 sharp 了 , 然后就找到了这个柏特 , 然后我们在北京在星巴克哈哈这个喝了一次咖啡 。
我觉得这次给我感觉就是他对这个问题背后实际上是有非常长时间的连续性的思考 。 第二点就是柏特身上散发的就是我觉得有代表性的年轻创业者的这种雄心 , 嗯 ,而且不设限 , 然后对任何事情都有非常主动性的呃思考 。
就他做 proactive,他自己也是个这种 proactive 的人。 然后我觉得第二点特别打动我们的是 ,在我们就是来回碰撞 、 来回思考的过程中 ,其实经历了一些变化 , 经历了 Cowork 的发布 , 甚至到其实呃 1 月初 OpenClaw 的出现 ,是其实这里面给我们提出挑战也有机会 , 对吧 ,有一些功能可能就被更广域的被做出来了 , 被宣发了 。
有些东西其实更更把这个创业者推到了这个极限外 。在这个思考过程中 ,其实柏特体现出来是非常独立的思考 , 非常坚定的信念 , 包括对这个打法 、 对市场布局 、 对优秀人才的这种渴望 , 都是自然而然地不断出来 。
这就是相当于在我们判断体系里面不断地加分 ,不断加分 , 那我们就非常非常想早点去投进来 。
然后刚才一豪有说到 , 就是 Cowork 发布其实带来的这种冲击还是蛮大的 。 你可以具体讲一讲 , 就在那个时刻那个冲击具体是什么 ?
寻找壁垒7:28
我们大概在去年 12 月多出来 , 当时其实定了一个方向是做 task engineering, 就是围绕呃 task 进行建模 , 然后也是同时呢我们把 Claude Code 做的简易化 ,其实就是 Cowork 以及说呃 Claude Code 现在发展那个形态 。
所以我们第一个说觉得 Claude Code 当时它那个 to-do 是不够的 , 我们把它建模成 task。 一开始我们是非常兴奋的 , 感觉事情做得非常对 ,但是我们后来在 12 月 20 号就是 Cowork 出了 , 包括 1 月多 Claude Code 它最新把 to-do 改成 task 之后, 就是既是兴奋又是有点崩溃吧 。
就兴奋的点在于呃我们确实呃产品的直觉是非常对的 , 我被验证了 , 然后我们内部的小伙伴也都觉得哇 , 确实这就是我们预演的方向 。
但是绝望或者叫悲伤的点在于 , 我们完全处在了 Claude Code 的延长线上, 所以它的框架的改进 , 然后它的简易化就完全把我们吃掉了 。
那我们其实 12 月到 1 月那一会儿做的一个尝试就呃相当于是白费了 , 呃或者其实凝聚了我们本身吧 ,因为呃那会儿就让我觉得我靠我原来这产品直接这么对 , Anthropic 可能应该把我召过去才对 。
哈哈哈 , 对 , 那那在那个时候做了什么调整 ?
对 , 我们当时呃我们去分析一个产品的机会 , 我们大概分成几层 , 第一层是做简易化 , 呃我们认为简易化是第一层 ,也是最容易想到的事情 ,但是我们发现它其实没有什么价值 。
第二层的话其实是我们做了呃多进程和人机协作的编排流 , 呃这个事情我们尝试完 ,其实内部测了一下, 感觉也非常不错 ,但是我们发现 Claude Code 其实很快又在逐渐蚕食这一块 , 所以我们认为这个长期也没有壁垒 。
那后来我们想到其实核心的话还是把我们之前在 MineContext 积累的这一块 context 获取和呃存储以及召回这一块做好 ,因为 context 这一块应该是 Claude Code 没法直接涉猎的 , 所以我们相当于是采取了把简易化的这一波的执行能力 , 加上我们过去的 context 最终组成了现在的一个产品 。
所以其实是被冲击了之后, 产品的定义才慢慢地这个浮现得越来越清晰 。
我们呃也总结出一个思考 , 就我们现在内部判断一个方向值不值得创业 ,其实看一个点 , 你试着把 Vibe Coding 出来 , 如果 Vibe Coding 出来 , 发现它已经有 60 分 、80 分了 , 呃那这样的产品可能就不需要做了 ,因为它就毫无任何壁垒了 。
然后我们现在这个尝试是我们用了很棒的 Vibe Coding 的时间 , 就发现只有 30 分 , 就是它的 context 获取理解有大量的呃就 bad case, 然后一些边缘的东西做得不好 。
哎 , 那我们发现说哎这就对了 ,因为这样才会让它有壁垒 。
就 Vibe Coding 出来的产品不够好才有空间 , 如果 Vibe Coding 就已经可以做出一个七八十分的产品 , 那别人也可以迅速地做个七八十分的东西出来 。MineContext 是一个这个开源的一个工具 , 然后它在开源世界确实也引起了很好的反响 。
呃你刚才也提到这个对开源有比较多的理解 , 所以这个可以讲一讲说你现在就是怎么理解开源吗 ?
我本科的时候其实是有参与 Jetwell, 就他们是有开源项目的 , 包括我在自己的工作室其实也做了一个开源的项目 , 叫 Swear Lab, 那应该有 3000 多 star, 然后它是一个模型训练监测的国产化替代 。
呃它当时某种程度是两类开源 , 第一类开源其实是面向普惠化 , 然后我认为这种开源其实也非常有价值 。
然后第二类开源其实是一种呃你理解为是一种框架 , 然后我做的第三个开源项目其实是 MineContext。MineContext 的话它就是一个应用 , 我现在的感觉是开源还是最应该做框架 ,因为框架的话能够让呃社区真正去不断完善 , 同时它也是让大家去适配你的生态的一种最好的方式 。
对创业公司呃包括我们自己未来吧 , 我觉得是如果我们有一个基建 , 然后希望它成为某种生态的话 , 就一定要把它开源出来 , 借助社区的力量去把它做大 。
咱们团队应该都已经内部在用 AirJelly 这个产品了嘛 , 就用的过程中有哪些 aha moment 吗 ? 就是尤其是你们发现哇这个功能只有我们能做 , 别人都做不了 , 就是这样的一些时刻 。
Aha时刻11:49
对 , 就是太多 , 我可以随便举几个吧 。 第一个是我现在算是担任我们团队的产品方向的工作嘛 , 那我最早的工作流其实是在 Gemini 或者 ChatGPT 聊天 , 然后去 Cursor 去写代码 ,但它其实有一些问题是 Gemini 上其实没有 AirJelly 相关的信息 , 同时在 AirJelly 传输到 Cursor 上, 它有大量的 context 的损耗 。
那我后来有一天就尝试 , 哎我能不能直接用 AirJelly 自己写 AirJelly 啊 , 哎我发现真可以 , 就是我去跟 AirJelly 聊 , 哎你目前的一个功能是怎么实现的 , 然后它就分析出了它通过我们过去看到的文档 , 它通过一些代码 , 它读到自己是怎么实现的 , 然后我说哎你觉得这个能怎么改进 , 然后它可以给一个大概的方向 。
然后这个时候我直接说哎你帮我直接写一下, 然后帮我提交一个 PR, 我发现它真的可以 。 就是我们在第一次大概是在 2 月多实现了这样一个闭环 , 就是用 AirJelly 写 AirJelly 之后就我现在每天疯狂地在 AirJelly 上问它你怎么迭代自己 , 然后它就自己在写自己 , 然后它就实现了 。
所以我们的现在的设计同学其实也都是在 AirJelly 开发 AirJelly, 我们让 AirJelly 写一个需求 , 就让我们桌面这个水母戴上一个帽子 , 然后大概它很快地写出来 , 然后水母就真的戴上帽子 。
然后我印象特别深就是我们那个设计同学 ,他看到了我们这个 case 视频之后, 呃 20 分钟直接从学校打车过来 , 就马上加入我们 。
然后第三个的话是我最近其实在招聘 , 然后拿简历 , 然后可能有的就发到微信群里啊 ,有的可能保存在桌面上, 然后我让 AirJelly 会去帮我找 , 哎你把某某人的简历直接找回来 。
然后有一个 case 我记得大概是这样的 , 就是它没有直接发 PDF, 它发的是个图片 , 然后我们在本地文件搜索之后其实没有找到这个文件 ,但这个时候 AirJelly 召回了一个记忆 ,是我之前在 Boss 直播间上可能看过 XXX, 然后它 XXX 可能跟我想问的那个人是一样的 。
然后这个时候它去呃 Boss 直播间验证了那条信息之后, 再去呃微信就是聊天记录 , 它会存在本地嘛 , 它再把那张图片给捞出来 , 然后它分析 。
这个 case 真的非常震惊到我 , 就是它不再是一种你拿到某一个信息检索到之后, 它发现找不到就断掉了 ,而是它会不断地去搜索相关的事件 。
而因为我们其实存了你所有 cross app 的 context, 所以它其实有很大可能在某个地方找到一个蛛丝马迹吧 , 然后它会试图模仿把它找出来 。
因为确实微信会把它来回传的这个图片文件都存在本地 , 所以这是不是意味着呃类似 AirJelly 或者其他的这个有桌面的文件授权的这样的 agent, 就是可以去用上微信里面的文件 ?
微信它本身呃数据是有加密的 ,但是如果你想找到文件的话 , 它可能跟聊天是另外的逻辑 。 就是我们觉得聊天它是一个比较加密的事情 ,但文件的话它是会存在本地 , 就是比如说你某一些文件夹里的 。
但如果是传统的应用你直接去找 ,因为它具备的 context 太少 , 它其实很难检索到 。 那因为我们有一些你聊天相关的事件记忆 , 所以它就能找到 , 哎你可能在什么时候讲了一个什么事情 , 发了一个什么文件 , 再基于此去找的话 , 它就可以顺着模仿它找到 。
我觉得这个可以解锁蛮多东西的 。
是 。
主动式AI15:24
嗯 , 主动式 AI 其实是 2026 年非常热门的一个方向 ,AirJelly 也显然是主动式 AI 里面一个很典型的产品 。 那可不可以请这个柏特也给我们先介绍一下 ,在主动式 AI 的领域里面 , 现在有哪些主要的大家的产品方向 , 然后各有什么优劣 ?
主动式 AI 它是一个比较泛的词吧 , 我是打辩论出身的嘛 , 就我们先定义先醒光 , 就是我们广义的主动式 AI 只要是 AI 主动推送给你的都算 , 那呃它包括一些定时任务 , 就比如说像一些 reminder, 然后像呃 ChatGPT 它提出的 pause, 就是它每天早上固定推给你 ,也包括说现在小龙虾它有一个 heartbeat 的机制 , 它可能每过 15 秒或者什么时候扫一下来给你进行一个判断 。
就我们认为呃这是一种主动式 AI 的场景 ,但呃我认为它是一个比较太广义的吧 , 我认为不是一种真正的主动式 AI 智能 。
呃真正的主动式 AI 智能 , 我们认为它需要得到两个东西 , 第一个是你在某一个场景明确的意图 , 嗯第二个是你在某一个场景的上下文 , 那它基于你的意图和上下文才能对你进行一个主动式的推送 。
目前实验这个东西其实非常难 , 就市面上是有一些玩家 , 比如说 Proactive 他们做的是会议场景 , 啊再比如说有豆豆游戏伙伴 ,他们其实做的是游戏场景 , 你可以看到说他们都不是是一个真的 general 的 Proactive, 它其实限定死了某个场景 , 最大的原因是因为他们获取 context 的方式没有那么广泛吧 , 所以他们要想知道意图和上下文只能限定在一个场景 , 一个小的场景 , 比如
说我知道你在打游戏 , 你可能下一步呃要打 Boss 了 , 或者是我知道你在开会 , 那其实整个会议的主题和文字内容就是你的上下文输入 。
那我们做的一个事情其实是我们通过 Enter, 这 Enter 是获取了你人和人, 通过 IM, 然后人和 AI, 通过 chatbot 以及人的信息检索 , 通过互联网 , 我们获取的是你最前量的意图 , 那这个意图获取来只是第一步 , 然后我们其实还会对你进行呃一些加工 , 把你加工成 event, 然后加工成 task, 这是你的任务 。
那这个任务的话我们会包含两部分的内容 ,其中有一部分是 task 的 progress, 就是我知道你当前的进展 。 第二的话我们会有一个东西叫 next step, 就是我根据你的进展和你的意图去判断你接下来可能要做的事情 , 然后我们会基于这个 next step 做一个 proactive 的 trigger, 从而最大程度地确保说我在一个 general 的生产力场景 , 我都能获取你当时的上下文和你当时的意图 ,并且给你做最直
接的推送 。
所以这里是不是还是有一种呃感受是获得的 context 的越多就越好 ?
我们之前做 MineContext 也做了一些 context engineering 的实验 , 我觉得 context 分几种吧 , 不同的形态的 context 带的信息是不一样的 , 比如说意图 context 我们认为是对主动式最有帮助的 , 某种程度也是最有价值的 , 那还有的 context 可能是一些信息的 context, 可能是一些文本的 context, 我们认为那个 context 也有价值 , 对 ,但它可能价值相对较小 ,因为它可能可以通过呃读你的文件或者去网络搜索去搜到 , 这是
context 的属性吧 。 第二个我们认为是 context 的组织形式 , 呃我们认为说过去为什么 coding agent 率先取得最好的发展 ,是因为呃 coding agent 它其实它的 context 不只说是代码文件 ,其实还有代码目录 , 能获得很多增量的信息 , 那所以它的效果会非常好 。
那我们的做法其实也是把获取到的意图 context 进行进一步的加工 , 我们会加工成两类 , 那第一类其实是 event, 就是事件 , 就是你 context 的原始意图 , 然后后续的不断地迭代是什么样的 , 把它组成了事件 , 从而有一个比较清晰的全局的认知和下一步的预测 。
第二类的 context 其实是 entity, 就像人或者一些关键的私域的事 , 关键的私域的物 , 我们把它组成 entity, 然后 entity 的话它类似于一种 graph 的形式 , 大概通过这样一种形式 , 那我们在召回的时候也只需要召回 entity 和 event 就足够了 。
Entity 比较容易理解 , 嗯然后 event 这里面其实是有一些识别在的 。
是 。
嗯你们有背后有一些什么样的这个实践的经验吗 ?
首先 event 这个事情 , 它如果你通过传统的 chat, 它其实是很难获得全量的上下文的 , 嗯所以我们其实采取了 VIM 加 OCR, 当然我们会有一系列的呃工程上的步骤 , 然后但是我们确保能得到的结果是说我们能获取你某一刻的意图 , 然后当前所有的上下文 ,以及说一些前因后果 , 然后通过这样的方式能够组织出你的 event。
然后 event 的话我们也对应设计了 event 的召回 , 然后 event 的合并 , 然后包括 event 随时间的衰减 , 做了大量这样的配套的记忆方面的工作 。
嗯那它会不会就是有一种可能啊 , 就是当我们说这个 context 越多就越好的时候 ,其实真正掌握我们最多 context 的还是是电脑和手机 , 那或者未来如果有了眼镜或者耳机 , 那它们也是 always on 一直在录 , 那它们才是拥有最多 context 的王者 , 那你作为它们上面的一个软件或一个插件 , 你得到的也永远只是它其中一部分 context, 就你这个怎么看呢 ?
这里我引一个比较有意思的 , 就是我本身是一个大量读历史的人, 嗯然后历史它其实有个特点 , 就不是发生的每一个事件它都是历史 , 呃不是发生的每一个事情它都会被记录在历史书里 , 历史书里其实记录的是关键性的 , 对世界产生影响 , 对之后呃有决定性改变的事件 。
那全量的信息其实它有点类似于全量的记录 , 就是我每一天的录音 , 然后每一天的录屏 , 我全部把它记录下来 ,其实它是包含了大量的噪音的 ,以及说它所有呃 context 的权重是一样的 , 我们认为这其实是不对的 , 我们认为更本质的事情是去捕获其中的高光 , 去把意图以及一些关键性的节点记录下来 , 我认为这是历史 , 然后当然我觉得这也是
人生吧 , 就人生就是一些关键性的节点组成的 , 所以我们长期来看捕获的意图会比那些全量记录更有价值 。
这确实是一个挺有意思的角度的 。 嗯其实还有另外一个观点啊 , 会认为主动式 AI 它或许是今天比如说 ChatGPT 或者 Manus 或者这个 Siri 对吧 ,是它们的机会 ,因为它们只需要在自己已有的这个 agent 的能力之上, 加上更多的 context 的获取和整理 , 呃你怎么看 ?
我觉得呃 context 最重要的是你的意图 ,以及意图那一刻的上下文 。 我发现说像 Manus 也好 ,ChatGPT 也好 , 它们本质还是 chatbot,chatbot 其实都是通过对话来获取上下文 , 那其实对于人来说 , 视觉呃获取周围的上下文和意图其实占了 95% 以上 , 所以它们通过单一的这种对话模态其实拿到的上下文是非常少的 。
所以我认为如果不从 context 获取的源头去改变这一切的话 , 那其实就是它们是没法实现我们能够达到的主动式的 。
那另一个角度说其实像 Mac 啊或者像一些手机 , 它们可能是能从源头获取这一部分的机会的 ,但我觉得 context 的像我们这么激进的获取 ,其实是大量的用隐私去 trade off efficiency, 那对于一些大的公司来说 , 它会有很多隐私方面的担忧 , 同时呢对于用户来说 , 它其实也担心大公司拿这一部分的隐私去作恶 。
我们对作为一个创业公司 ,其实对于这一部分的机会其实可以有一个更精准的冲锋 , 然后找到小部分的死忠的人群就足够了 。
嗯刚才说 ChatGPT 和 Manus 它们是今天只能通过对话上下文获得 context 的嘛 ,但是如果有一天比如说 AirJelly 获得 context 的这个方法被证明有效 , 那它们本来也有客户端对吧 , 它们这个也通过它们自己的客户端去学习里面已经实践出来的工程经验 ,也捕捉了类似的 context, 那对你们来说会是一种什么样的竞争局面 ,在那个时候你们的优势和差异又是什么 ?
其实我们本身呃作为 AI 时代的一份子 , 我们也是希望人类把整体在智能这一块是能往前推进的 , 所以如果越来越多的人能跟进 ,其实也证明我们做对了 , 我们是开心的 。
然后再讲讲我们的壁垒和趋势吧 , 首先我认为所有 tools 的 agent 应用最核心的壁垒还是记忆 , 就是假如说你在我们这已经用了一个月 , 用了三个月了 , 所以会有大量的记忆留存下来 ,而这部分记忆它想迁走其实是比较困难的 。
如果这个范式被证明最终是成功的话 , 那其实已经把大量原始的用户呃相当于它们的心智已经留在我们这了 , 所以它们迁不走记忆也就不容易迁走 。
第二块是那个工程实践 ,其实可以 call back 一下我之前讲的那个什么事情值得做了 , 就是我们其实 Vibe Coding 尝试过呃屏幕截图记录这个事 , 包括其实海外有个产品叫 Dayflow, 它们其实也做了这个事情 , 那就大家可以体验一下, 就是这个事情听上去很符合直觉 , 然后呃也比较简单 ,但其实想要做好会有大量的工程细节去调试 , 然后需要大量的 case 去调整 , 呃所
以我觉得一时半会儿它们也是没法做出我们这样的效果 , 大概是从能力以及说记忆这两个方面 。
嗯嗯嗯这也是一个很有趣的角度 , 就是如果我们先发布 , 然后先占领市场心智 , 然后有一批用户先用起来 , 之后它要迁移是困难的 ,因为它的使用习惯和记忆在这里 。
以及我觉得这里面还 enable AI 时代创业公司一个机会 , 就是你有最早第一批用户 , 然后有一个核心的 user case 的群 , 从这里面你还是能发现一些高价值的客户本身和高价值的这种问题 , 就是到了 AI 时代 , 构建成本越来越低的这个渐进的过程中 ,其实定义问题本身就是最有价值的 ,因为理论上存在你可能定义出问题它就能被解决 ,但 AirJelly 还是有机会第一批遇到
这一拨人 ,并且把它们这些高价值问题 trap 进去 , 那也许会有很多 general 的问题始终会被巨头的产品一波一波去撸走 ,但最终剩下那个象牙塔可能就是 AirJelly。
主动式 AI 有什么大家都比较认可的 ,但是你自己持非共识的观点 ?
我们其实国内外看了大量主动式 AI 的项目吧 , 我还说是 Proactive 还是 Brawl 还是豆豆游戏伙伴 ,以及各种呃可能 OpenClaw 的 Claude Code, 然后比如说呃龙虾它的一个 heartbeat 的机制 , 嗯然后我们发现主动式 AI 大家其实经常在做的事情是发散 , 嗯就是说我基于你现有的信息 , 我猜测你可能想额外了解什么 , 所以你看像 Pause 它会根据你每天的对话 , 它给你额外推送一些你可能
想了解的事情 , 它做的是一个发散的事 , 某种程度是一个增加你认知负担的事情 ,但我们的话 , 我们的主动式其实是围绕着你的意图和你的下一步 , 所以我们的主动式是顺着你的延长线做一个推动 ,也就是说我们不会额外增加你的负担 ,而是说你当前在做什么 , 我们推测出你下一步要做啥 , 然后主动式的递给你 , 帮你推进当前的任
务 ,其实用户是非常乐意说呃哎那你帮我执行一下吧 。
然后这里就有另一个问题啊 , 就主动式 AI 一定要去提醒用户吗 ? 或者要去主动的向用户举手汇报我这里有一个工作帮你完成啊 ,但在这里呢就有可能提醒的很频繁 , 用户觉得很烦 , 然后或者你提醒的不是到位的这个问题 , 它也会觉得你在打扰我 ,但是如果总不提醒 , 很保守 , 用户又觉得你没有存在感 , 那你们现在实践下来有一些什么样的经
验吗 ? 如何找这个 balance?
对然后我觉得主动式也分两类 , 第一类其实是提醒 , 就是 reminder, 比如说我呃今天下午要来 Koji 这做播客 , 那像这样的情况它肯定得来通知我 。
第二类其实是就像我刚刚讲的 ,不管是执行还是其他家可能做的发散 , 我们之前观察到的场景其实是需要去阅读用户它的工作状态 , 就比如说用户从一个应用中 switch 到了其他的应用 , 这时候可能是它的一个相对没有那么专注的状态 , 这个时候你去主动式的说哎呃是不是要我来帮你完成叉叉叉 , 这个时候它去执行的话 , 用户的接受度会更高 ,而且也不会觉
得受到打扰 。 同时还有一个东西就是用户的反馈信号 , 就是其实不同的用户它对于主动式的频率能接受的程度都是不太一样的 , 那有的用户可能觉得说呃你 15 分钟一次太多了 , 那这个时候其实我们会设计对应的呃 dismiss 或者 got, 那这样的信号会反馈去迭代它的频率 , 大概从这两个方面能够做到千人千面的做到最适配他们的主动式 。
嗯嗯哎你好 , 就主动式 AI 也是今年 CreekStone 你们基金重点看的方向吗 ?
投资方向28:13
是嗯其实我们去年大概在八九月份的时候 ,其实我们在这方向已经投了两个团队 , 除了柏特还有豆包的一个小伙伴做团队 , 都是非常激进在 proactive 这个方向 ,并且看好 continuous learning 方向的这个团队 , 就是你前面说的在 right timing 给你最好的结果本身 ,因为人一定会被推向是在这个时间把结果把饭喂到你嘴边的这样体验 , 这种神奇体验本身是可能最魔法时
刻的 。
除了主动式 AI,在 2026 年你们还有哪些重点在看的方向呢 ?
我们其实始终是三大方向 , 第一个其实是更多以垂直 driven,但是敢于做一些 general 探索的这种 agent talk, 我们可以说的非常直接其实就是 agent talk,但是比如说更激进的应用在垂直方向 , 这是我们呃发经历最多的 , 像柏特也好 , 我们豆包团队也好 , 然后包括呃之前像 Mizen 呀 Mimebot 也好 , 大家都是在垂直和呃这个呃 general 的方向 ,而且今年随着我觉得 OpenClaw 这样壳出来 , 随着
更好的模型出来 ,有一些我们在 23 年、24 年不敢探索的问题 ,也许今年可以探索 , 比如说在社交上, 比如说在个人代理上, 比如说在对外的一个深网络 , 甚至社会性的这种网络探索上, 呃其实这些问题在现在这个时间点也都可以探索了 , 这我们特别感兴趣 。
第二块肯定是在这背后的 agent infra, 现在这个其实 OpenClaw 遇到了很多现实性落地的问题 , 跟它的身份验证安全 , 然后背后整个对数据库 , 对呃网络 , 然后云端本地之间的相互结合之间有太多的工程漏洞 , 就你的 Vibe Coding 30% 的大部分场景都与这些会有关 , 这就意味着很多像包括像 Resend 也好 , 像之前的 Sofa Base 也好 , 呃像 Memory 也好 , 这样的重要基建还会出来更多 ,
这也是我们特别关注的方向 。 然后第三块虽然我们精力花的比较少 ,但是基于我们的 portfolio 去延展的一块是 build for agent hardware, 就这些硬件本身是为了获取更多 context,是让你的人生你的环境信息更多的去给予你重要的几个 agent, 这类的 hardware 就像我们之前投的 ODIS 本身 , 虽然它是 focus 在健康饮食 ,但实际上大家都知道在它的信息里面已经有大量的这些 context, 我相信这些
context 未来会对 AirJelly 可能也有帮助 , 一个程序员在关注他的健康饮食的同时, 实际上他的工作也一定同时上被很好的劫持了 ,是不是能够帮助他的工作 , 这是我们今年非常想去呃探索的方向 。
水母与龙虾30:44
之前柏特有一个宣传片啊 , 就是在讲这个水母和龙虾 , 就在做对比 , 然后当时在讲说龙虾是瞎的 , 它眼睛看不到 ,但是水母其实感知能力非常强 , 呃可以展开讲讲吗 ?
就是当时这个呃为什么那么强调这一点 ?
我们跟龙虾一个比较大的区别吧 , 就龙虾我觉得它最典型的意象其实是它的钳子 , 它代表它执行能力非常强 ,但其实你看龙虾它是在水里爬行的 , 管得到的事情是非常少的 ,其实本质也是因为我们在龙虾这一层上核心还是通过 chat, 那 chat 能获取的信息是非常有限的 ,而我们水母的话因为做到了更多的模态 , 然后更智能的意图获取 , 所以说它感
知到的 context 是要比龙虾呃可以说是几何倍数增加的 , 所以那有了这样几何倍数增加的感知能力 , 同时再加上我们的 agent 框架 ,其实我们的 agent 框架也是参考龙虾了 ,因为龙虾其实我觉得它最核心是它背后的 Py, 它 Py 的那套框架非常简洁 , 只有四个工具 ,但是配合上模型能力有非常强大的效果 , 所以我们的话也是同样用了 Py 那个框架 , 搭
配上我们这一套 context 和 memory, 哦呃应该是有比龙虾要强非常多的体验的 。
刚才提到 AirJelly 要不断的截图 , 要不断的去这个把 memory context 越做越大 ,但是它怎么在无限膨胀的过程当中还是保持它的效率呢 ?
我们可以看几个点 , 第一个点是上限 , 你可以思考一下其实现在的数据库和 rewrite 的能力 , 它在企业场景的应用可能是把 1 万个文档丢进去 , 那 1 万个 PDF 它其实有海量的切片 , 所以它能只载的上限的能力是非常强的 ,而我们 AirJelly 就是作为一个个人来说 , 它那个记录的量级其实是非常小的 , 我们一天可能就是呃 200 多张截图 , 然后对应的一些 chunk 的 context,
所以在量级这个上限上它的能力是没有任何的减损的 。 那第二个点我们聊的其实是它的效果 , 它的效果其实是比如说你越来越多的信息会比如说对于过去造成污染 , 那我们其实有两个机制 , 第一个机制叫 merge, 就是我们有新的 entity 的信息进来的话 , 它会和过去的 entity 合并来 update 你的信息 , 比如你今年可能是 24 岁了 , 去年是 23 岁 。
那第二个其实我们对 event 和 task 也是有 merge 的 , 就是新的呃事件进来之后我们会 update 你的 progress, 那确保你时刻保持的是最新的 ,不会过时的 。
那第二个其实是我们会有一系列复杂的召回算法 , 它可能会有时间的衰减系数 , 确保呃最新的东西可能是优先的 , 同时它可能用上各种混合检索和重排来确保它实现的一个效果 。
龙虾发了之后有给你们什么样的启发吗 ? 就让你们某一些比如说产品上的决策呀 , 技术上的架构啊有产生变化吗 ?
最核心的有两个点吧 , 第一个点其实是 agent 的框架 ,其实我们最早的一版有想过只做记录然后分析 ,但后来我们发现接了龙虾的 Py 之后, 它真的好强大呀 , 就是有各种 magic 的效果 , 所以我们认为要把龙虾这个底层框架接进来 。
框架是一个开源的框架 ?
对它是一个开源的框架 。 那第二的话其实是养龙虾这个概念 , 就其实像 miners 它可能是一个很好用的工具 , 那我对它的耐心可能就是你能不能第一次进去就帮我完成任务 ,但龙虾它其实是一个不断养成的过程 , 那它可能效果不好可能是你觉得我没有养好 。
对那我觉得这是一个非常有意思的点 ,因为我们其实也是一个海洋动物 , 那我们其实也会结合水母在 enter 上有一个养的方式 , 就是我们可能 enter 的越多 , 那水母它可能积攒的记忆和 context 就越多 , 它可能效果也会越来越好 , 从而来最大化的让用户的耐心能够强一些 。
这个真的很有意思 , 就是现在有些龙虾的亲家聚会说自己是什么养虾园聚会 , 大家聚在一起讨论养虾心得啊 ,但我就在想说它其实本质也是一个工具呀 , 那之前人们对工具的耐心是你一旦出了 bug 我觉得就是工具没做好 ,但今天大家龙虾出 bug 只会觉得哎呀我的龙虾怎么又偷懒了 ,是不是我没养好我要去参加线下聚会去找高手学一学他
们是怎么养虾的 , 嗯它是一个很有趣的变化 。
是但有一个很核心的变化 , 就是从这些 proactive 的产品出现以后, 就一旦它 proactive 跟你人是一个情感性的 , 包括这些信息素驱动的一个生物 , 当你与它有了一定的陪伴和交流属性以后 ,其实也提高了你的容忍度也好 , 留存你的更多记忆也好 , 就是记忆又在反过来循环你和它的共情能力 ,也许从今年开始的产品本身就会天然有这种属性 , 它已经不再是个
工具了 , 它是个长程陪伴然后相互互动主动性的一个产品 。 其实应该是从 Llama 开始吧 ,Llama 是羊驼 ,其实 Llama、 千问 , 然后像龙虾我觉得其实呃有一个动物形象我觉得是非常关键的 , 就是它能够延展出很多的可能性 , 同时呢它也更加亲切 , 尤其是如果要做一个 personal 或者 proactive agent, 水母的话我觉得是非常棒 ,但我们已经抢了 , 就大家可以抢抢别的东西 。
哈哈哈嗯然后我们在一开始其实有提到就做主动式 AI,其他的很多产品选择的是一些垂直的方向对吧 , 比如说 Doodle 桌面助手是游戏 ,Proactive 是会议 , 然后你们呢其实选的是通用的方向 , 然后是什么原因让你们坚定的要选通用而不是先找一个垂直 ?
通用与垂直35:59
我觉得其实是两个吧 , 第一个是其实在去年的 3 月份 minors,minors 是我觉得是对我们这个年代的创业者一个很大的启发 , 就包括其实我记得 minors 发了那天我刚好其实在写我的 research, 然后我当天走回家里然后听他的播客 , 然后当时也觉得哎我以后也也想做一个什么样的事情 , 没想到一年后的今天 , 真就是一年后的今天 , 我也在做这样的实践 。
Minors 还是激发了鼓励了很多的这个创业者吧去做自己的东西 。
我们对 minors 的一个观察是它其实一开始使用上最前沿的模型能力 , 加上它的一些套壳 , 它的一些组合 , 让大家感受到了 magical, 然后大量的用户其实就涌进去了 , 那涌进去之后其实它最后会收敛到几个场景 , 那我们其实挺好判断的 ,因为你看 minors 它 developed feature 就是它把 PPT, 然后它把一些呃 while research 就是额外做了一些模板把它越做越厚 , 所以我们认为说先做通用让大
家涌进来 , 然后让大家的实践去收敛具体的场景是非常棒的一种呃产品思考 ,但我觉得背后更本质其实是两件事情 , 就是第一个是其实是谦虚 , 谦虚是我作为一个产品开发者我不是要教用户说这个东西必须要这么用 ,而是说第一我相信用户他会有一些奇思妙想 , 然后他可能会有一个很好的用法 , 那我们是要把这部分好的用法吸收进我们的产品
迭代 。 那第二我觉得更核心是 AI 时代一定要相信 AI 的能力 , 就如果你把 AI 限定死功能其实是一种呃隐性的 workflow, 就是你隐性框定了它应该是数据这样的流转这样的执行 , 所以做一个 general 我觉得本质就是尊重最前沿模型能力的发展 , 然后尊重用户的奇思妙想 , 然后尊重 AI 相信 AI 的能力 。
那一行怎么看就垂直和通用 ?
我我前面先被他又一次被感动了 , 哈哈哈其实我觉得这个对创业者来说最重要是 self 呃 positioning, 就是你怎么理解自己在整个市场里面 , 如果创业公司 CEO 也是一种供给的话 , 怎么理解自己的这个定位 , 呃我们也很看好 , 就是当你有极大的雄心和资源驾驭能力的时候 , 你应该勇敢的走向 general,但反过来要问自己一个问题是你有没有啊设计新的框架 , 定义新
的框架和定义新的游戏的能力和全球宣发能力 , 这很客观 ,有这样能力的团队 , 我们觉得 AirJelly 绝对是有这样能力的团队和野心团队 , 你就应该 go for it,因为每年这样窗口期实际上是在越来越短 , 我们这次看到是新框架的应用上 Anthropic 也好 ,OpenAI 也好 , 这个 Gemini 也好 , 大家的跟进速度比去年的 minors 跟进速度要快很多 , 这是天然会越来越激烈的竞争
,但对于可能更大部分的创业者来说 , 我们还是鼓励大家去做垂直 , 用更新的呃框架 , 用每一年的更新的框架去解决一个垂直的问题 , 甚至是推向去解决这个行业里面更根本性和更高价值的问题 ,而思维在 OpenClaw 出现那一刻其实也改变了 , 这也结合咱们前面说的人格化的产品本身 , 就是针对一个行业的社会定位 , 一个职业本身 , 一个个体去创
造产品 , 这个产品已经完全跟上个时代产品不一样了 , 你本质上在造一个人 ,而且你的路径可能也不一样 ,是你需要这个行业里面只需要也许 10 个 , 最多 100 个专家能用起你的产品 , 能够在你这把他的专业能力复制出来 , 能够代理出来的产品已经是一个垂直行业里面极好的产品了 ,有可能这样一条路更适合更多的创业者 。
我这也有点补充 ,其实你知道做 research 的人他天然就是追求在某一个 benchmark 的 sort out,但我觉得我的机缘巧合在于是第一是我其实呃比较耐挫折吧 , 虽然我我其实 research 做的也很烂 , 然后呃高考好的一般 ,但其实我觉得我的野心或者我的志向还是呃第一流的 , 第二是我因为其实之前做过 research 嘛 , 所以我其实也天然会带有说我要去做最 sort out 最前沿的事情的一个原
始的出厂设置吧 , 所以我觉得这也是我独特的经历就带给我不同的点 。 我们这样插播一下招聘啊 , 就是呃我们第一轮已经融了钱了 , 然后第二轮呃目前为止还非常顺利 , 就肯定会融到钱的 , 然后我们手头应该会有呃几千万 , 然后我们目前的公司会分为三块 , 第一块的话是宣发侧 , 我们认为 marketing 会成为科技公司超级有价值的部分 , 所以我们会招
公司文化40:39
大量 marketing 的人才 , 第二类的话是我们会招开发 ,不管你是过去是产品经理还是呃比如说后端开发前端开发 , 只要你能够熟练使用 AI 工具你都可以加入我们 , 第三的话是 research 以下几个方向吧 , 第一可能是跟 RL 相关的 ,不管是 agent 的 RL 还是 skill 的 RL, 第二块的话我们其实长期会卖向呃 GUI 的 agent, 所以你可以来我们这里做一些呃 computer use, 再有的话其实我们因为会涉及到大量
视觉的理解以及说视觉的召回 , 所以你可以来我们这做一些呃 VRM 相关的呃一些模型的微调模型的后训练 , 我们非常开放 , 就是我们可以支持以 project 的形式 , 然后也支持 remote 的形式 ,但反正我们非常渴望人才 。
我听说这个你们是一家不开会的公司 , 这是非常 AI native 的一个做法对吧 ,但是肯定很多人都很好奇一个不开会的公司要怎么运作 。
我们认为说会议这件事本质是对信息的批次处理 , 它是一种积压然后进行呃统一的一个对齐 , 那我们的一个做法其实是通过呃首先我们日常都是坐在线下嘛 , 那简单的问题我们就直接流式的沟通掉了 , 那再有一个其实是我们在内部实验 AirJelly team 版本我们大概能够实现两方面的功能 , 那第一个功能其实是我们把 AirJelly 放到同一个 group 里 , 那 AirJelly 和 AirJelly 之间进行对
话 , 然后帮助我们弥补某一个 gap, 比如说它可能最新实现了一个 feature, 可能和你那个 feature 会呃生成一些 conflict, 那我们就会提醒你 , 再有个呢我们也可以提问某一个人的 AirJelly, 这样我就可以知道他当前在工作上的进度 ,而不需要说我去打扰他然后把他的呃工作状态给打断了 , 当然这里我们要特别强调一点就是我们现在 AirJelly 的这个 team 的分享是我们的伙伴们他可以自己选择 share 自己的一些
工作的重心啊 , 就绝对不可能说存在我们去做一些监视 , 就大家是呃非常抵制这种过去那种监视软件或者监控软件的这样一种行为的 。
我们要额外补充一个就如果是我们去和客户聊的话 ,因为客户客户目前还没有 AirJelly 嘛 , 那我们会跟客户进行呃会议 , 当然我们的一个构想是呃 team 在进一步完善之后我们会和我们的投资人有个 group, 这样投资人可以直接在呃 team 里问我的 AirJelly 我们最近的进展是什么 , 然后他就可以很方便的知道我我们最近的一些 update, 呃再有一个的话其实我们在一些长期的目标上
我们大家会轮流在黑板上写一些东西 , 然后有一些战略的讨论 , 我认为这个其实不是会议 , 我们把这个定义成古希腊的一种广场 , 就我们轮番上广场来发表演讲和感想 , 然后进行一个长期的愿景的规划 , 对所以呃综合在此的话我们可以说我们是一个没有会议的公司 。
咱们的公司的名字我注意到叫持续低商 , 呃可不可以讲讲这个名字它是怎样一个由来啊 ?
商这个词其实很有意思啊 , 它是一个热力学第二定律 , 就是它是衡量一个系统的混乱程度 , 所以商的第一层意思其实是有序 , 那我们其实所有做的产品也是希望说带给人们有序 , 第二个是商其实在生物学上呃薛定谔其实提出过生命以负商为始 ,也就是说生命它想维持有序 , 它想维持机体 , 它想维持行动都需要不断的输入能量然后降低它的商
, 所以我们想做的其实也是通过我们这样的产品使用到硅基的 token 去增强碳基的人的有序性和活力 , 同时呢我觉得我们的公司因为现在还是一个小的 startup,但可能后续也会成长然后也会长大 , 我们不希望说带上一些大公司病 , 所以这一块机体的有序我们希望我们公司能够一直保持呃一个比较有活力的不僵死的一个状态 。
第三块的话其实是呃信息学以及说 AI 的角度 , 信息学角度商其实是衡量信息的密度 , 那在 AI 的角度其实在模型训练的时候会有交叉商的概念 , 它其实衡量的是你预测的分布和真实分布的一个接近程度 , 那我们在这两点做到低商其实也是希望说通过我们这样的一个产品能够让未来的人机协作越来越接近某一种真相 , 然后越来越接近某一
种更高级的一个知识的形态 。
我们刚才其实也有聊到啊 , 就主动式 AI 要尽量多的采集用户的数据 ,但是采集数据背后呢确实也是一种信任 , 呃作为一个新的创业公司就 AirJelly 你们要怎么去说服用户信任你们把他的这么多的屏幕截图都开放给你们 , 尤其因为屏幕截图就意味着微信都能被你们看到啊 , 这个信任要怎么建立 ?
数据与隐私45:50
对我觉得我们会分几个方向吧 , 第一个是呃技术上, 就技术上呃大家也肯定放心 ,不管是我们在哪个市场一定会符合当地的法规 , 我们会有呃最全的端到端的加密 , 然后确保我们中间不会去瞒你的信息 , 再有一个就是我们所有的信息像图片像呃不知道 context 都会存在你的本地 , 就你不用担心会上我们的云进行分析 , 再有个的话是我们会有
一套呃 PII 的系统 , 它会自动把一些相关的人名一些相关的机密信息去呃脱敏化 , 比如说把某一个人名改成 Person one 这样的形式进行分析来保证我们不会拿到你的一些机密的信息的分析 , 呃第二个的话我觉得其实是情感上, 就是情感上的话我们会设计一个非常可爱的水母的形象 , 通过这样一种方式其实是让用户觉得我们这样的更加可以接受 , 对大家会从
技术和情感两个方面 ,但我觉得长期其实呃这也是一个用户教育的问题 ,因为呃用隐私换便利 , 那其实在最早期可能就是一些呃可能说是几十万量级的用户能接受 , 那其实我觉得这也是一个好事 ,因为对于我们一个创业公司来说呃这样量级的用户对我们来说已经是非常可口的美食了 , 那大公司可能觉得太少就不会去做 , 所以在呃竞争上其实我觉得隐
私也是我们的一个护城河 。
咱们现在只有这个 PC 端对吧 , 移动端还没有上线 ,而且我在想移动端上了之后是不是也比较难做到定时的截图这个去获取 context 的这个功能 , 那就会出现一个情况是用户的这种记忆呃或用户的 context 你们只捕捉了其中一部分 , 那手机上这一部分就是残缺的 , 那带来的结果可能就是比如说我不知道什么东西是你知道的什么是不知道的 ,因为用久
了之后就晕了我也忘了 , 比如说我和一豪是在手机上聊的天还是在电脑上聊的天 , 那当我再去和水母互动的时候我就不知道他到底知道哪些东西也不知道哪些东西 , 这是不是一个挺大的麻烦呀 , 这个你们要怎么看待怎么去处理 ?
我觉得这个是某种程度也是一个幸福的烦恼吧 ,因为如果真的到那种程度可能会有很多死忠用户啊 ,不过我们也可以尽情的畅想一下这个事情 , 首先我们先做 PC 的一个判断是 PC 是最接近生产力的 , 那在绝大多数的生产力场景都是在 PC 上完成闭环的 , 那我觉得这样其实某种程度已经覆盖了你 50% 呃就全量的上下文跟年龄足够多的覆盖掉了 , 那
它整体的效果就已经非常棒 , 那也可能有像 Koji 刚刚提到的有些东西可能在手机上甚至有些东西可能需要你有一个硬件去捕获这部分的 context, 那我们的做法是我们会逐步的去扩展我们 context 获取的途径 , 那第一步肯定是手机了 , 那手机我们可能会有一个比如说也是有个悬浮球可能你点一下可能可以获取或者通过一些按键的触发来获取这样的信息 , 再有的话是硬
件 , 长期的话我们应该也会试着和一些硬件的厂商合作 , 就比如说我们在 CreekStone 的 Mafia 有一个叫 Audys 他们像一豪提的他们其实是会从硬件获取信息 ,而且我觉得一个非常巧合但本质必然的一个事情是硬件获取的信息和我们屏幕截图都是通过 VRM,也就是说它直接是获取呃世界本身的样子和本身的信息 , 所以它天然是打通的 , 那我们未来可能通过一些硬件上的适配
然后做到把硬件的信息然后手机上的信息和 PC 上的信息打通实现一个最全量的工作场景的 context 覆盖 。
然后有另外一个也是关于 context 获取的问题啊 , 就是大家大量的聊天工作都在微信上面啊 , 所以微信的数据可以说就是 context 最大的宝藏之一 ,但是微信又像一座城堡 , 就是你几乎基本上不可能通过 hack 或者 API 的方式去得到它 , 那咱们是通过截图 , 可是截图也有一个问题是怎么才能确保就是截到的就是重要的呢 ,因为像刚才提到的我们也不能够一直每一秒来
一下每一秒来一下, 那如果只是通过 enter 在一个群聊里面也很可能他 enter 的时候就前面另外的人聊了很多已经被滚走了 ,他 enter 的就是也只是截到了群聊里面和他发的那句话相关的几句聊天记录不代表着这个事件的全貌 , 我不知道你们就是要怎么去思考解决就这样的麻烦 。
首先判断第一个事情就是我们 enter 的话能拿到用户的一种这个是对的 , 然后我们其实也一直思考了如果拿到用户一图那呃反馈怎么办 , 就是我们一图完他可能反馈的这部分的信息要怎么获取 ,因为我们其实不可能去破解微信所以全量的反馈信息我们肯定是拿不到的 ,但我们做了大概两方面的工作能确保说呃去弥补这一块 , 第一个是其实你可以理
解绝大多数的聊天场景或者跟你相关的聊天场景都是一问一答 , 那一问一答的话其实你当前回复的这句话和用户可能之前回答的那个内容它是能拼接在一起的 , 当然这里会有我们大量呃 event 的一个设计会把不同的截图把它合并在一起 , 从而能做到在大量的这样的短的对话上其实他说了啥回复了啥你都是能联系在一起的 , 第二个其实是
如果用户有大量长段的对话我们拿不到这个时候我们的一个弥补措施其实是通过 enter, 就是我们的 enter 其实不只是你在发送对话的时候可以按你平时也可以按 , 就你平时按的话它也会捕获你额外的信息 , 这样如果有真的有非常关键的信息你可能会遗漏掉那这个时候你按一下 enter 它也会补充到 , 那在长期的话我们可能还会做一个设计就是 Typeless 它短按
长按以及连按两下它可能会有不同的功能 , 然后你可以额外输入语音 , 那我们其实也参考这样的设计我们可能结合 enter 和比如 command 或者什么键我们可以在截某张图的时候也输入一部分你的话作为补充 , 从而最大化的优化相关的上下文信息 。
就是让用户把按 enter 也变成一种习惯 , 就是他不断的在喂这个水母给他主动的提供 context。
对其实我觉得 enter 这个习惯是 enter 应该是我认为是键盘上最重要的一个键只是它一直被遗忘让用户想起来其实 enter 是你表达意图最好的方式在 AI 时代就更要多用 enter 然后多用我们因为我们就代表了 enter 代表了意图 。
也有一个问题想问一下一豪啊就是模型今天还是在不断的进步啊然后巨头呢也越来越狼性马化腾都在发朋友圈给小龙虾打 call 那你怎么看在这样一个背景之下就是作为投资人作为创业者你们要怎么应对这样的挑战 ?
生死问答53:04
这个好问题我觉得这也是我们对自己的这个要求我觉得就在三个方面就第一方面真的是动态的一起学习和一起成长这件事情很重要我一直在思考呃这个时代快速变化的时代 VC 能提供价值什么有一个很重要就是市场水位在哪里都有些什么前沿的方向这些可能被解释为是简单的信息但如果你在这信息上有一定自己的思考有自己的总结本身这对创业者
来说很重要就是不管你是选择垂直还是选择 general 本身你做事情到底有多新奇特你到底是首证还是初期啊投资人是一个 benchmark 可以用来校准因为毕竟我们可能在市场看到项目会更多我们也关注美国的创业项目和最前沿的进展所以这是第一点我们要求自己必须勤勉必须及时的跟创业者一起去沟通的地方第二点是我觉得对于早期创业公司来说重要的是人才
就是我们的 network 里面有些什么样的人尤其是互补性的人才我们现在有有个三四个团队的可能联创是我们介绍进去的但是我们还希望能够更多的帮助到这些团队第三块我觉得就的确是我们也要不断拓展异业的合作包括可能从 HR 从视频的制作从跟最优秀的科技合作我觉得这都是很重要就是也许只是举手之劳问题是你能不能想到啊这个为创业者
去做这些事情为创业者去提供更多维度的服务这是我觉得在这个时代里面投资人真的要做的事情 。
我们说到 AI native 啊就 CreekStone 也是 AI native 基金啊那你们的工作方式或者一些管理的一些原则有没有也有 AI native 的部分 ?
是呃我觉得就是随着去年 Cowork 这些出来然后到今年有 OpenClaw 其实对我们的帮助尤其是我们这种新创的人又很少基金来说帮助实在太大了其实主要几个方面我觉得第一阶最简单的就是大量的工作可以自动化和龙虾化不管是我们去扫 GitHub 的项目也好扫小红书项目也好尤其是我们带着一些大量复杂的零散的 context 去寻找一类东西和人的时候它的效率非常
高以及它在网络世界里面本身使用工具啊这些方面能力都非常强除此之外我们在内部实践是希望呃不管是我去聊的项目还是大家接触的 LP 接触的业务的合作方接触到这个大厂里面的大佬啊或者是技术专家也好所有这些信息能够非常有趣的啊这个向量化的存储下来然后并且有类似于 task 然后其实对我们来说重要 entity 就是项目和人以及它相互交
叉就这两个核心的维度以这样的维度去啊知识结构存下来它更大的好处是说对啊我也好对黄哥也好对我们第一个小伙伴 Gary 也好每一个人对外的时候都可以全量的知识性的输出并且有更好的这个结构性的知识的表达对于呃来的信息都能有更好的去反馈去帮到创业者本身更重要的是我们可能甚至有机会更统一的表达我们的文化表达我们
的沟通风格然后我们想做第二件事情就要呃仰仗 AirJelly 做的更好以后我们就会用他们的系统去把我们的这些甚至平时开会对外讲的一些东西都能很好沉淀下来然后去塑造我们的 Jelly 我们就不做龙虾了我们就做我们的水母希望我们的水母其实能够更主动性去接触更多的创业者也许接触到是创业者的水母这也是一件很好的事情 。
我们再聊一下未来啊那我们先聊一个这个比较大家不愿意发生的未来啊就 what if 啊就假如三五年之后 AirJelly 没做好然后它呃这个失败了你觉得最大的失败的可能会发生在哪些地方 ?
对我觉得可能在 AI 时代三五年是个伪命题吧就是我觉得可能就是呃一到两年内 AirJelly 的失败我觉得第一个最大的问题可能是不够快不够快指的是可能我们提出了一个比较好的新范式但可能触达用户太慢了这个时候如果等到大厂下场我们还没有积累到足够的用户和呃足够多的用户留存记忆那大厂会把我们吃掉这是我觉得 AirJelly 失败的第一个可能性那第二个
可能性还是一个点因为 AirJelly 的研发我觉得某种程度是一个一个非常精妙的艺术一方面我们要用隐私去换取 efficiency 我们既要保证说我们要拿到足够多的 context 让呃 agent 的执行效果足够的好让用户感到足够的 magical 甚至说拿到一些 context 能分析出一些呃社区的团队的一些玩法但另一方面说用户对我们隐私它到底能够接受到什么程度比如说如果在一个用户还没有准备好的
时间直接要了太多的隐私可能对团队的声誉不够好那如果臭掉了那我觉得就不对了所以我们需要一个丝滑的切入节点以一个让少部分人能够心安理得接受的一个隐私度同时还要具备一个足够好的 efficiency 的提升我觉得这个是一个火候的艺术这里我可以说一下就是我们预计在 3 月 18 号左右就要开放内测啊这大概在这个视频播出之后吧那我们已经开放
内测如果你看到了这个视频呃回复 Koji 我们直接给你一个邀请码 OK。
终局畅想58:47
好谢谢那我们这个最后一个问题啊也是回到我们开场的那一句话就我们今天还是相信说人类和 AI 最佳的工作配合方式还没有被真的发明出来那如果回头看有一天它真的被发明出来了然后它也很幸运的是 AirJelly 发明出来的你畅想一下那会是一个什么样的画面 ?
我最想实现的事情是通过研发一个产品它实施作用在生产力它改变了未来的人机协作我觉得未来的人机协作一定是人机高度共生的每个人都会有自己的一个可能是 AirJelly 或者是其他的 personal agent 然后它有你最全量的生产力相关的信息那有了大量这样生产力的信息之后会有一个网络吧或者一个 group 呃 AI 和 AI 之间可以进行协作呃它起两个作用第一个是它可能把你的一
些 personal skill 的能力带过去这样的话可以代替你进行打工或者生产第二个的话也是呃它可能也会成为你的一种新型的伙伴就是它非常了解你然后它也跟你一起协作有点类似于呃宠物小精灵的感觉我们认为未来会是一个生产力极度发达同时呃这样的一个 personal agent 能够让你感到不孤独就是让你的心灵会有非常好的未见 。
那它又在提高生产力但同时呢又给了你很好的情感陪伴是一个非常完美的一个搭档 。
然后为什么是呃一个 personal agent 呢然后我觉得这个源自于一个比较朴素的哲学思考就是呃婚姻制之所以是一对一因为一对一其实它具备一种稳定的特殊性 。
所以你觉得这个人和 agent 不会是一对多是吗就到最后还是会类似一夫一妻制一样会只有一人一 agent。
对我觉得一定会是这样的因为呃它有非常底层的一个考量就是它某种程度是一个你可以说是自己的延伸或者是自己的影子但如果是一对多的话可能就是你的 slave 但在 agent 能力注定超过人类的情况下可能它成为你的 slave 这在哲学上就说不通 。
哇这非常有趣的一个观点 。
非常面向 agent。
刚才提到你曾经打过辩论嘛对吧但我们也发现比如说明超平陈冕也是辩论队的就怎么有那么多在打过辩论的同学今天在 AI 领域创业啊你觉得这背后有一些规律吗 ?
很多人对辩论有误解因为很多人对辩论的误解是你为什么要明确去讲一个单一的或者是有一定偏激的方向你去全力的认同它而不是你认为说两边都是讲的对的那我可以从辩论以及说辩论对我们的影响上来讲一讲呃第一个点是辩论它双方都持自己的观点其实是一个逐渐深化的过程如果我们简单的说 A 是对的那 B 也是对的那结果就是 A
和 B 都是对的就不够了但如果我们持自己双方的观点那我说 A 的 A 部分是对的 A 的 B 部分是呃没那么对但是也不错的 C 部分是呃可能在某一定场景是对的我们就可以找到说我们这个 A 到底在哪些场景在哪些情况下到底是什么时候会比更对呃我认为这是能够让我们的认知进行一个不断的深化那再有个点是我觉得辩论其实是一件和创业非常像
的事首先你出来之后一定会有一个问题是为什么别人没有做为什么是现在做一定是因为它现在可能存在的一定问题它可能长期能被解决或者是呃在某种一小类的 case 下在某个 vertical 的场景下能成立那辩论其实也是一样我们在呃打了几年啊我就插播一下我是两届西电十家辩手 OK 呃我们在锻炼辩论的过程中也是说我们抱着一个注定不那么完美的观点
去不断的打磨它去不断的想到它在什么情况是合适的它在什么场景是最优的那其实把它呃这一部分思考的能力换算成创业上也是一样的我们这个产品不需要在所有的人群所有的场景在所有的时刻都是棒的我们只需要找到某一类人群某一类场景在现在甚至是可能三个月后的某一刻它是对的这就足够了所以我认为这是呃辩论思维对于创业呃
非常大的一个非常大的一个训练吧 。
还蛮有意思的 。
我觉得辩论很重要的点是其实大学生他对社会本身的各行各业很多社会问题还没有亲身的体验就辩论是一个大家对事情都没有实体的绝对体感情况下持所持不同角度进行思维完善互搏这样一个动态的过程所以我觉得这个对年轻人来说特别好的帮助 。
其实你刚毕业嘛工作时间只有半年对吧为什么在这个时候想着要创业而不是在大厂再多积累一些经验 ?
我觉得可以用一句话去概述这个事情呃这句话是源自一个类比这句类比是童年是和平年代的假象呃这句话的意思是我们惯常认知的比如从 1 到 18 岁它本身是和平时代的产物因为和平时代每一年都是一样的像我们人的话就是每个人都是 18 岁去迎接高考所以你可以做到充分的准备只在你那一届和 18 岁的人竞争但我觉得 AI 时代来了之后其
实不是这样 AI 时代其实对所有的人类都是一样的它在 22 年底出了 ChatGPT 在 25 年 Agent 已经呃发展的非常不错了它其实创业的时间窗口在缩紧所以在 26 年我觉得不管你在任何的一个阶段就是你都应该去呃这个赛道去尝试一下比如像我才刚校招或者你已经工作了几年了或者你是三十几岁二十几岁其实我觉得大家都是一样的时间大家一起去呃去冲刺
所以它是一个 AI 时刻我觉得某种情况是一个呃归基对全人类现况的一个宣战就是它是一个战争时刻所以没有你的童年去发育了就大家赶紧冲吧 。
哈哈哈这还蛮有意思的 。
我觉得这个东西就很共鸣感觉很强烈就是总有一些人对一些时代浪潮或节点会更敏感嗯同时在敏感背后还有一种时不我待嗯有一种天将降大任于斯人也就我必须要冲出去的这种 urge 嗯呃我觉得这个是非常强烈的就作为投资人来说肯定要投这种人。
我们录这期播客还是 2026 年 3 月初然后但是短短的这个两三个月已经发生了非常多的事情我们都觉得 2026 一定是一个大年所以也想这个问一下二位就你们认为 2026 会发生一些什么 ?
我觉得首先是呃尽快的度过 OpenClaw 这个这个浪潮这只是概念但是我们要做的事情是更 AI 原生本身关注 context 关注 proactive 关注模型最前沿的进展因为今年肯定在 computer use 方向在更好的粘合剂上在更长程的任务上能有更大突破然后每次对创业者来说都还是基于新的模型进展新的框架去找结合的应用点这个是普遍的道理所以对 2022 年我们还是充
满了期待也希望更多的创业者能够跟 CreekStone 一起能够给我们这种机会能够给大家提供一点点帮助 。
好那我也讲一下我对呃 2026 的一个构想就是聊 2026 前肯定要先聊 2025 就是 2025 年的 3 月份我还是一个在听 MineContext 的人那一年之后我就上了 Koji 的播客在 2025 的年底就是 MineContext 被收购了我同样又听了他们一起跟 Peak 的播客然后那个时候我也已经自己出来创业了所以我觉得整个 2025 的发展确实完全超出了我的预期所以我对 2026 其实没有呃一个上限上的考量不给自己设天
花板呃唯一我觉得 2026 我希望达成的一个事情是我在 25 年底最终决定出来创业的时候其实看了大量的创业公司然后我也在想是不是要加入他们呃当时我其实是作为一个可能有一定代表作的年轻人呃身处自己的迷茫呃我发现最终他们可能有各种各样的原因我觉得可能是自己出来做是更好的那在 26 年我或许希望呃成为这样的一家公司我希望把我们的公司我们的
产品我们的呃文化吧打造成一种如果在 2026 年的一个年底有一个可能也是做出了某个开源项目或者是发了一个很厉害 paper 的年轻人他希望去找一个要加入的地方我希望那里会是我们 。
非常好你刚才说到这个 2025 难以想象的时候啊我就想到其实 2025 年初我们录了一期播客和萧红那是她创业十周年那期播客录完之后我们标题也定了就是萧红说 2025 一定会跳变就跳跃式的变化跳变她说了很多遍这个她自己的预期她觉得会跳变但是会怎么变不知道因为那个时候 MineContext 还刚开始在酝酿嗯呃但那期播客在等待一个很好的发布时
机对所以我觉得 2025 会跳变我相信 2026 也会跳变今天非常开心柏特和一号来十字路口我们非常期待 AirJelly 的上线啊希望上线一切顺利好谢谢那我们拜拜今天拜拜 。






