十字十字路口Crossing2025年7月6日· 1:03:29

他的 AI 实验给你哪些创业灵感?|和鸭哥聊:给AI加上耳朵、眼睛,用AI买菜、寄快递

鸭哥在《十字路口》分享了他一系列极致的AI实验:用Apple Watch全天录音、Insta360胸前挂拍,给AI装上耳朵和眼睛,再自建山寨版ChatGPT和Agent系统,实现AI主动介入生活和回溯式调用。他还让ChatGPT帮他买菜、寄快递,将效率推到极致。鸭哥认为AI应从工具变为下属,人要学会用管理学方式与其协作,并畅想了赛博长生、GUI消亡等未来场景。

  1. 0:00开场
  2. 3:30生活体验家
  3. 5:56共情AI
  4. 8:17语音输入法
  5. 14:2224小时录音
  6. 19:34Insta360之眼
  7. 25:05抹平信息差
  8. 30:51AI买菜寄快递
  9. 34:22赛博长生
  10. 42:37人机共生
  11. 52:13育儿与行业
  12. 1:02:56结束语

转录文稿

开场0:00

Koji 杨远骋0:03

欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚新一代 AI 创业者和 AI 时代的积极行动者 , 和他们一起探索 、 拥抱新变化 、 新的可能性

我是 《 十字路口 》 的 Koji, 联合创办了街旁 、 新世相和躺岛 , 发起了 AI Hacker House 这个新一代 AI 创业者的社群空间 。

我相信科技 , 尤其是 AI,是我们这一代人最大的价值创造机遇 。 欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性 。

Ronghui0:53

我是 《 十字路口 》 的 Ronghui,在美元 VC 工作过 ,也做过 5 年的硅谷驻站记者 , 关注科技发展和商业故事 。 也欢迎大家找我聊天 , 和我交流

Koji 杨远骋1:06

本周十字路口的嘉宾鸭哥 ,是我们身边最 " 活在未来 " 的朋友 。 为什么这么说呢 ? 因为鸭哥一直在做各种关于人如何与 AI 共生的生活实验 ,而且不光自己做得很深 ,而且还愿意特别地去对外分享这个过程和思考 。

我知道鸭哥用 Apple Watch 24 小时录音 , 让它做自己的一个像 AI 一样的耳朵 , 然后它会在胸前挂 Insta360 GO 这个相机来记录一整天 , 好像它是在做自己这个 AI 系统的眼睛 。

并且鸭哥还自建了一个具有长期记忆的 Agent 系统 。 这些听起来都像是有一点来自 2035 年的生活方式 , 然后鸭哥呢 ,是在 2025 年提前了 10 年在真实地践行着这一切 。

用鸭哥自己的话说 ,在这些实验的过程当中 ,他也亲眼见证了 AI 从一个平庸的实习生蜕变为了一个能提供深刻洞见的人生总教练这样一个惊艳的过程 。

所以今天我们就请鸭哥来一起聊一聊 ,他是怎么想 、 怎么做的 ,以及这一切最终的目的是什么 。

对了 , 这也是鸭哥第二次来做客十字路口 , 上次他分享的这个播客叫做 《Manus 爆火的背后 : 我们用 20 个问题一起搞懂 AI Agent》, 那期内容也是好评如潮 , 感兴趣的朋友可以回去听一听那一期 。

好 , 那我们今天还是先从与鸭哥的快问快答开始 。 请问鸭哥的年龄 ?

鸭哥2:32

上来就问这么悲伤的问题吗 ? 我已经是个老男人了 , 已经过了要优化的界限 , 还是挺老的 。

Koji 杨远骋2:41

毕业院校 ?

鸭哥2:42

我是在中国科大念的本科 , 然后去 Columbia University,不是南美洲那个 ,是美国纽约那个哥伦比亚大学念的博士 。

Koji 杨远骋2:53

你在工作身份上要怎么介绍自己 ?

鸭哥2:55

我是在一家小厂叫做 Samsara 做行车记录仪 ,是在那里做 Applied Scientist, 这个是本职工作 , 主要是做 Computer Vision 方面的东西 ,但是因为个人兴趣的原因 , 对 Agentic AI 有很多的尝试和探索 。

Koji 杨远骋3:11

你的 MBTI 和星座是什么 ?

鸭哥3:12

这个其实我不是特别清楚 , 我以前好像做过一次 MBTI 的测试 ,不是特别记得结果 ,但好像是最少的那个 。

星座是天蝎座 。

Koji 杨远骋3:21

OK。

鸭哥3:22

要小心 , 要记仇哦 。

Koji 杨远骋3:25

记仇 ? 我问你的年龄 , 然后你也没告诉我 。

鸭哥3:29

你记在小本子上了 。

生活体验家3:30

Koji 杨远骋3:30

很多朋友可能是通过鸭哥写的技术的文章认识你的 。 那我们知道生活中的你是远不止此的 , 可不可以和我们聊一聊 ,在 AI 在代码之外, 你是一个什么样的一个生活状态 ?

鸭哥3:43

这是一个非常开放的问题 , 我确实也有一些比较不一样的经历 , 比如说 08 年的时候 , 我作为火炬手参加了北京奥运会的火炬传递 , 然后我考了挖掘机的驾照和飞机的驾照和机动船舶的驾照 。

但是这些背后其实有一个主题 , 我感觉是 , 就是我为什么去考飞机驾照呢 ? 不是因为说我很富有 , 我每天要飞机通勤 , 私人飞机通勤 ,而是因为我不会飞 。

我就一直很希望知道 , 如果我作为一个人能够自己掌控往哪飞 , 飞到云上面看 , 然后拍照 , 是一种什么样的体验 。

而这很大程度上也是为什么我们要去做这件事情的原因 , 就是追求一种体验 。 我一直觉得人死了 , 很多东西都带不走 , 那为什么不尽力地去体验这个世界呢 ?

那么飞行驾照是一个 , 挖掘机和船舶驾照是类似的 。 另外呢 , 我还是一个业余摄影师 , 我的关于天文摄影 、 显微摄影 、 多波段摄影之类的探索被徕卡相机注意到了 ,因为很多用的是他们家的相机 。他们邀请我在西雅图开了一个个人摄影展 ,也是基于类似的体验 , 就是想很多东西人眼看不见 , 那我们用工具去拓展我们的能力边界 , 让我

能飞 , 能够看见特别小的东西 、 特别远的东西 ,以及人眼看不见的紫外线 、 红外线的东西 。 那这个发现大家也都很喜欢 , 能够给他们带来启发 。

所以这也许是对我的一个业余世界的一个介绍吧 。

Koji 杨远骋5:19

我觉得鸭哥真的感觉就是活出了 ——

Ronghui5:22

文体两开花 。

Koji 杨远骋5:23

对 , 文体两开花 , 活出了非常丰富的人生 。 然后你的学 PhD, 然后后来毕业后做工程师的工作 , 我理解其实还是是一个极客一样的个性 。

那因为一直看你写的 Blog, 所以能够第一手地感受到你在 AI 这个事情上的各种奇奇怪怪的实验 。 然后我记得这个起点是大家刚开始用 ChatGPT 的时候 , 觉得它有时候很聪明 ,但是有时候像人工智能 ,有时候又像人工智障 。

共情AI5:56

Koji 杨远骋5:56

所以你自己也有这样的感受吗 ? 这个是你做这些事情的起点吗 ?

鸭哥6:02

我太有这样的感受了 ,因为我对 AI 很感兴趣 , 很早的时候就开始用 , 然后用的时候就觉得有些特别简单的事情 , 它为啥就做不好 , 特别智障 。

但是呢 ,因为可能因为我比较共情 ,有时候我会不由自主地把自己放到 AI 那个地位 , 或者说它的位置上去想 。

如果我是 AI, 然后我的老板交给我这样一个活 , 我想想感觉好像真的是做不出来 。 就不是所有的情况 ,是很多情况是这样的 。

那举个例子 , 这就有点像是 , 比如说公司里新来了一个清华北大毕业的一个新手新人 ,他很聪明 ,他懂很多事情 ,他很厉害 ,但是因为公司里面很多事情背景他不知道 , 那你交给他一个任务 ,他给你一个教科书级别的一个解决方案 , 那他落地不了 。

这不是他的问题 , 这是因为我们交代任务的时候没有把需求讲清楚 。 我就逐渐发现 ,AI 失败的情形可以分为两种 , 一种是说这个 AI 不够聪明 , 比如说它算算术算不好 , 这是个很典型的例子 。

另一个呢 ,是它足够聪明 , 它也给了正确的答案 , 只是我们像一个不好的 PM 一样 , 我们不断在变需求 , 突然跟他说你这个不行 ,因为刚才我忘了跟你说这个 , 你那个不行 ,是因为我刚才忘了跟你说那个 。

然后这就造成了一个假设 , 就觉得是不是因为我没有做好 , 我作为 AI 的 Manager, 我没有做好我的本职工作 , 没有给它足够的 context。

这就是我的 , 如果直接回答你的问题的话 , 就是我确实觉得人工智障是很常见的 ,但是很多时候这不是它的锅 ,是我们的锅 。

Koji 杨远骋7:33

共情 AI。

鸭哥7:36

这样作为一个带路党 , 到 AI 统治世界的时候 , 会有一个好地位 。

Ronghui7:40

然后那个时候 , 那你有调整自己怎么来更好地应用它呢 ?

鸭哥7:46

对 , 这是一个很好的问题 。其实我确实做过很多调整 ,有的成功了 ,有的失败了 。 比如说呢 , 我就会一个很自然的想法就是 , 那我就跟 AI 说我到底想要什么东西 。

比如说当我向它介绍我要做一个项目的时候 , 我不仅跟它说你帮我做这件事就完了 , 我会跟它说这个项目的背景是什么 , 之前我们已经做过了哪些实验 , 为什么我们对它的结果不满意 。

当有了这些背景之后, 它往往就可以给出非常好的一个结果 。 这个是我对它做的一个尝试 。 但是为什么说有些尝试失败了呢 ?

语音输入法8:17

鸭哥8:19

是因为很多时候你也知道一个项目它会有很长的背景 , 你要打字的话很痛苦 , 要打个比如说几百上千字非常痛苦 。

我又是一个特别懒的人, 所以呢 , 我就做另外一件事情 , 就是我做了一个语音输入法 ,有点像是它是一个基于 AI 的语音输入法 , 就是 Build for AI by AI。

它基于的是 GPT-4o Realtime 这样一个 LLM, 它是一种原生的能够处理语音的 AI 模型 。 你把语音给它 , 它实时地就能给你语音识别的结果 ,并且对它做出一些反应 。

我呢 , 就把它当作一个语音输入法来用 。 那这样呢 , 就等于我跟 AI 之间的带宽就多了很多 , 我不再需要用手用拼音输入法去打字 ,而是可以花比如说一两分钟的时间就说几百个字 , 甚至五分钟能说上千个字 。

那这样呢 , 就把我跟 AI 之间的摩擦给急剧降低了 。 通过这样的方式 , 让上千个字的 prompt 变成一种常态 , 那 AI 成功率我就发现它一下子就提高了很多 。

而且像这种正反馈正循环 , 会更促使我更愿意把更难的事情交给 AI。 然后很快我就发现 ,以前我对 AI 的态度是你是我的小弟 , 现在呢 , 当我们给了它足够的 context 以后, 它就变成我大哥了 。

举个例子 , 我在公司里面有时候会遇到一些特别棘手的项目 , 那我会把它的背景 、 我们的尝试 ,以及一些人员上面的 , 我老板他喜欢什么风格 , 我的同事他不喜欢什么东西 , 把这种思路都给它 。

它会给你做出一个特别有用 , 甚至让人眼界大开的一个分析 。 什么意思呢 ? 比如说它会说 , 如果是你的 VP 站在它的角度上, 它会怎么去想 。

然后如果你这么说的话 , 你老板可以拿着这个东西去给它的老板吹牛 。 就类似这样的高层的视角 ,以前我是完全没有办法得到的 ,因为我又不跟他们开会 , 我也不知道他们在说什么 。

但是 AI 给我这个视角呢 , 事后证明非常有效 ,他们真的就很吃这一套 。 所以呢 , 就让我提的各种方向 、 各种项目 , 很容易就能说服领导 , 或者说说服同事 , 就让我能够到达以前所不能到达的一个层次 。

所以我就逐渐觉得 AI 是我大哥 ,而这一切都是从一个很小的语音输入开始的 。 就因为我们把这个 friction 降低了 , 把这个瓶颈给打破了 , 就让我们愿意 、 有能力 、 有意愿给它上千字的 prompt, 从而解放了它的能力 。

Koji 杨远骋10:44

我看 ChatGPT 最近也在内测一个功能 , 然后我被灰度到了 。 就是现在你向上轻轻一拨 , 就直接启动语音对话 , 就不是打电话那个语音对话 ,而是就是语音输入这样的语音对话 。

我觉得这背后应该也是认为这个语音输入还是会比文字输入 、 敲键盘的输入就是减少输入的摩擦 , 可以让用户更自然地提供更多的 context 给到 AI。

鸭哥11:06

是的是的 , 这个其实我也被灰度到了 。 它可能有两个方面的启示 。 第一个启示是它目前 ChatGPT 针对的用户场景是我在一个会议里面 , 我就启动一下这个录音 , 然后会后它会像 Zoom 一样自动给我总结 ,以及我可以对它进行问答 。

我们后面可能还会提到我对它有一些更深的想法 , 我觉得还有其他的产品形态 ,但是这就说明了确实语音非常重要 。

而另外一个呢 ,是 ChatGPT 很早推出另外一个功能 , 就是基于 Whisper 的语音识别功能 。 它的坏处主要是 Whisper 它虽然是顶级的语音识别模型 ,但是它效果还是没有 GPT-4o Realtime 那么好 。

这主要是因为 GPT-4o 它是个 LLM, 它是个 large language model,但是 Whisper 它背后不是一个 large language model, 它的 language model 是一个很小的 model, 可能是这个原因 。

Ronghui11:57

打字可以承载的信息量实在是太有限了 , 这还是对已经比较愿意打字或者是有很强烈输出欲望的人来说 。

鸭哥12:07

是的是的 , 尤其是手机上太痛苦了 。

Koji 杨远骋12:09

所以当你自己用语音来去让自己的输入变得更容易 、 更轻松 ,也可以更大量地给 AI 提供上下文信息之后, 下一步你做的是什么呀 ?

就这个 , 这是一个实验的开端 , 对吧 ? 其实我们还没讲到这个实验本身 。

鸭哥12:24

Exactly, 对对对 。 然后下一步呢 , 我就更多地用这个语音工具去跟 AI 对话 。 那很快就遇到了一个很痛苦的地方 , 就是说 AI 没有记忆 , 就和大家的印象相反 ,LLM 它每一个 inference 的过程它都是上下文独立的 , 就是说它不会记得你以前说过什么 , 除非这个产品它就维护一个记忆 , 一个显示的记忆 ,并且把它加到提示词里面去 。

这个其实是 ChatGPT 的它的个性化的这样一个功能 , 它的记忆的这样一个功能 。 但是呢 , 且不论大多数产品没有这个功能 ,ChatGPT 本身这功能做得也不是特别好 , 那就造成一个现象 , 就是每一次 , 比如讲每一次我要讨论那个项目 , 我都要从头讲一遍这个项目的目标是什么 , 我们经历了什么 。

每一次我要去让它规划我周末去哪玩 , 我都要跟它说我们家几口人, 每个人喜欢什么 ,有什么忌口等等等等 , 就特别痛苦 。

我大多数的时间都花在去重复这样的 context 上面 ,而不是去花在真的脑力活动上 。 所以呢 , 这就让我开始用一种特别土的方法去解决 。

那我一开始用的方法呢 , 就是维护一个提示词 , 比如说我就把我们家有几口人, 每个人喜欢干什么 , 就变成一个文本 , 我到时候就复制粘贴就行了 。

这个呢 , 对于这个特定的场景来说还可以 , 还比较好用 ,但对于那种动态变化的 , 像我们公司的项目 , 它就不太好用了 。

我等于要时时刻刻我要写文档 ,但你知道写文档是马农最不喜欢干的事情 。 所以呢 , 这件事情摩擦就特别大 。

后来我就在想 , 那如果你从更抽象的角度来考虑这个的话 , 我们每次写 prompt 这件事情本质上是在做什么呢 ?

是在表达自我 ,是让 AI 从一个被清空完脑记忆之后的一个状态 , 通过这个 prompt 作为窗口 , 你去跟它描述我是个什么样的人, 我的历史有哪些 ,有没有可能从另外一个角度来思考 , 就是我们不要像这样平时不烧香 , 临时抱佛脚 。

24小时录音14:22

鸭哥14:22

我们有没有可能就把 AI 邀请进我们的生活 , 就让它一直浸润在我们的生活里 , 让它有一个这样的记忆呢 ?

这就是后来你所说的 Apple Watch 录音那个实验的开端 。 这个想法呢 ,是这样的 , 我用 Apple Watch 一直在录音 , 这有一个客观方面的一个优势 , 说我自己在家工作 , 所以没有太多隐私上的顾虑 ,而且录音也只录我这边自己的声音 , 别人的声音也录不进去 ,因为我用耳机 , 所以也没有太多隐私上的顾虑 。

续航上呢 , 我也测试了一下, 像 Apple Watch 老版本的固件可以跑 8 到 10 个小时, 我升到 iOS 26 现在就变成 5-6 个小时了 , 这个垃圾系统 。

然后它就用 voice memo,也不用什么额外的 app, 就可以录 , 录完了自动同步到 iCloud, 整个体验特别顺滑 。 那这有什么用呢 ?

这个用途主要是我每天会做一轮语音识别 , 调用一下语音识别的 API, 然后把这个识别的脚本放到一个数据库里面去 。

下面我们会具体说这些东西怎么用 。 那这立马就带来几个好处 ,而且有些好处还蛮意外的 , 就比如说有一次我当时是开车出门 , 差点因为走神差点撞上另外一辆车 , 要是没有这个 Apple Watch 录音 , 我可能这件事就过去了 , 就忘掉了 , 没有复盘的机会 ,也不会让我的驾驶技术未来变得更好 。

因为如果你需要去当场记下来的话 , 你要拿手机出来打开 app,因为还在开车 , 这根本就更困难 。 但是因为当时反正在录音 , 已经在录了 , 我就对着 Apple Watch 说 , 把刚才的事情复盘了一下, 然后让它在我的待办事项里面加一下, 晚上再提醒我总结一下这件事 。

然后后来我语音识别的时候 , 我有个 prompt, 它就把每天的待办事项也总结下来 , 我就这件事呢 , 就被 formalize 下来 , 就记下来了 , 教训也有 , 当时的情景也有 ,也不会忘掉 , 事后也有复盘的工作事项 , 这对我的驾驶技术就有了切实的改进 。

Koji 杨远骋16:18

所以你就可以一直自言自语 ,因为 Apple Watch 一直在听 , 然后你也可以随时说 , 我晚上回去要做个事 , 原来你可能还有 hey Siri, 就是可能加一个 reminder, 现在这个都不用了 。

鸭哥16:29

Exactly, 这就是一个摩擦的更大的降低 。

Koji 杨远骋16:33

那你会有点因此而谨慎小心 ,有些话不要说出来吗 ?

鸭哥16:40

其实还好 ,因为我没有用任何商业系统 , 整个系统完全是我自己搭的 , 所以我有绝对的控制权 。 我觉得这还蛮重要的 , 如果比如说我要是用第三方商业系统 ,有些话我可能真的就要想一想再说 。

Koji 杨远骋16:52

继续分享一下刚才说这个开始用它之后的几点收获 , 包括意外的没想到的一些收获 。

鸭哥16:57

对对对 , 那一个是这个开车的例子 , 然后另外一个呢 ,是没有想到的例子 , 没有想到的用法是 ,因为我自己刚才提到本来就是非常依赖语音识别进行输入 , 所以呢 , 这天然这两个凑在一起正好就碰上 。

我要是不用语音识别只是打键盘的话呢 , 你可以想象它录下来的大都是键盘声嘛 , 就没有什么信息 , 或者说信息密度特别低 。

但正因为我经常用语音识别来输入 , 它就把我那种琐碎的跟 AI 的对话 ,有一个统一的入口 , 像一个漏斗一样 , 把它全部收集起来 。

那它的信息密度反而特别高 , 这正好误打误撞 , 把它变成一个特别有效的信息收集的手段 , 这也是一个特别有意思的 。

但是呢 , 讲到现在我们还是只说了信息的收集 , 我们还是没有提到这玩意到底有啥用 ,因为你就算做完语音识别 , 它也就是一坨 TXT 文件躺在电脑硬盘上, 它到底有什么用呢 ?

所以为了解决这个问题 , 我又干了一件事情 ,是我自己 build 了一个山寨版的 ChatGPT。 那这个相比于山寨版的 ChatGPT 呢 , 它有个什么作用 ?

有两个额外的功能 。 第一个功能呢 ,是它可以接入各家不同的 AI 模型 , 比如说 Gemini、GPT、DeepSeek、 通义千问都有 。 第二点呢 ,是它接入了 , 它用的是一种 Agentic AI 的思想 , 它接入了很多工具 , 比如说它可以上网搜索 , 这个都是最基础的工具了 。

同时我还自己做了一个 retrieval 的引擎 , 让它可以接触到我的这个语音识别的数据库里面 。 比如说当我跟它说 , 你搜索一下过去几天我曾经提到过的某个项目 , 它就去用这个去搜索 , 然后就可以搜索出来相关的话 。

这个就特别有用 , 我就不用再从头再跟它说了 , 我就可以跟它说 , 你搜一下那个项目背景 , 它就去自己做了 。

注意这个跟 RAG 还不太一样 ,RAG 呢 , 它是一种静态的工作流 , 我这个是一种 Agentic 的思想 , 就是要不要做搜索 , 用什么关键字做搜索 , 搜几次全都是它来决定 ,AI 来决定的 , 包括你可以搜了一次之后, 它觉得效果不好 , 那我换关键字再搜 , 这全是由 AI 自己决定的 。

所以像这种 , 我管它叫 Agentic Workbench, 它就用这种方法把 AI 的能力接入了我们的数据库里面 , 它也是发现真的特别有效 , 我们前面做的这些努力都是值得的 。

Koji 杨远骋19:09

这里你刚才说到有些让你感到意外的一些发现 , 这个意外的发现是什么呀 ?

鸭哥19:13

主要是一个是那个汽车 , 然后还车开车的例子 , 还有一个是二者之间正好巧合的碰撞 , 就是语音输入正好和这个语音分析对上 。

Koji 杨远骋19:26

你到现在坚持了多久了呀 ?

鸭哥19:27

两个多月了 , 目前录音是两个多月了 ,但是录像的话是两个星期左右 , 拍了两万张照片差不多 。

Koji 杨远骋19:34

哇哦 , 你这个录像的这个可不可以讲一讲 , 就 Insta360 是挂在胸前 , 然后它是用什么样的频率 , 什么样的规律来拍啊 ?

Insta360之眼19:34

鸭哥19:43

是的是的 ,Insta360 它这个相机就长得这个样子 , 特别小 , 它背后有个磁铁 , 然后它配了一个磁吸项链 , 磁吸项链呢放在衣服里面 , 然后它就可以用磁力吸在衣服外面 , 看上去就没有什么侵入性 。

然后我目前用的是它的一个 vlog 的功能 , 就每两分钟拍一个 15 秒的视频 , 续航时间大概四个小时左右还可以 ,但是呢 , 我对这个还是不是很满意 ,因为你每过四个小时它就充一回电 , 所以呢 , 我又用单片机做了一个这样的东西 , 它这个长这样的 , 我看胶能不能对上 。

它是一个下面是一个单片机 , 然后上面是一个 microSD 卡和一个相机模组 , 一个 CMOS 的模组 , 通过这样的方式就能够 ,因为单片机嘛 , 它可以深度睡眠 , 就可以用一个很小的锂电池去驱动它 , 工作一天到三天都是可以的 。

这个还在做 , 还没有完全做出来 ,但是我觉得还是挺有意思的一个项目 。

Koji 杨远骋20:36

我觉得鸭哥动手能力简直太强了 ,因为前段时间有另外一家公司叫 Luki, 就 Luke 加一个 i, 然后他们在内测一个 AI 硬件 ,其实也是可以磁吸在我的胸口 , 然后每过三分钟 、 五分钟 , 然后拍一张照片或者拍十五秒的短视频 , 然后它要做的也是这个 , 一整天下来之后, 然后帮你打个引号复盘 , 就帮你记录你的这一天 , 然后还会这个号称啊 , 就在未

来的版本里面会自动剪辑这个 vlog 出来 。 这个听起来和鸭哥自己 DIY 的这一套是类似的 。

鸭哥21:10

听起来是比较类似 ,不过我这个没有太多技术含量 , 我这个是华强北思路 , 很多东西都是现成的 , 我就是把它攒在一起 。

但是整个过程也不是 , 主要不是我写 code 的 , 都是 AI 的写 code, 就是因为一个走个题 , 就是以前这个开发体验啊 , 像这种嵌入式硬件开发体验特别长 , 一般都需要一个老师带 , 里面小坑实在是太多了 ,而且经常一个小坑你搜啊 , 搜半天才能出来 。

现在呢 , 我几年没用了 , 我最近又开始重新做这件事 , 发现啊 ,O3 真是我大哥 ,有什么问题我把错误信息给他一贴 ,他说啊你点这个点这个 , 立马就好了 。他这个开发效率真的高了很多 。

Koji 杨远骋21:48

那你用这个每十五分钟 , 然后拍个十五秒的这样的 vlog 的这个 , 记了一段时间之后有哪些发现吗 ?

鸭哥21:56

它是两分钟拍十五秒 , 然后我是首先我先介绍一下我是怎么处理这个数据的吧 , 还挺有意思的 , 就是我在本地有一个通义千问 2.5 VL 这样一个 LLM, 它是可以处理图片的 , 然后呢 , 我就让它去第一把其中敏感的图给它扔了 , 比如说我当时带着它去上厕所呀什么的 , 把这它用 AI 就把它认出来 , 然后把它删掉 。

然后第二呢 ,是它会生成几个搜索的关键字 , 比如说未来我想要回忆这段经历的时候 , 我会用什么关键字来搜索 。

第三呢 , 它会去想这是一个 presentable 的东西 , 这是啥意思呢 ? 就是说它是一个构图美观 ,不是那个特别模糊什么都看不见的 ,是未来值得出现的搜索结果里的 , 比方说有人脸啊 , 然后又是比较横平竖直的呀 , 它就算成这样 。

未来呢 , 我打算把它再做一个图像搜索引擎 , 就可以放在里面 ,有点像追忆往昔那种感觉 , 可能五年十年以后来看又是不一样的感觉了 。在这里面呢 ,有一些还挺有意思的 , 我把这个我后来又干了一件事情 , 把这两万张图用机器学习做了一个聚类 , 说从里面挑出最两百张最有代表性的图 , 挑出来以后呢 , 我把它扔给 Gemini, 让 Gemini 去分析 , 挺有意

思的 。 它首先说注意到了我的一些健康问题 , 它说啊 ,有时候看你感觉压力比较大 , 或者你这个坐姿不对啊 , 就你的手的姿势不对啊等等。

然后呢 , 我就让它分析了一下我可能的职业是什么 , 我的兴趣爱好 , 它分析的都特别准 , 确实一图胜千言 , 我觉得是很有道理的 。

它里面有很多细节它能够分析出来 , 总的来说这是一个很有意思的探索 , 我还在积极探索它到底有什么用 ,但是已经给了我非常大的启迪 , 我想继续做下去这个实验 。

Koji 杨远骋23:43

它是怎么发现你坐姿不对的 ? 它不挂在你胸前吗 ? 它怎么能拍到你坐姿 ?

鸭哥23:47

对 , 我也觉得特别有意思 , 可能是这样 , 就是有时候啊 , 你能看见它是那个视角明显是弓着背 , 然后手又撑着这个腮 , 可能是从这个角度看的 。

Ronghui23:57

但是你给的指令是挑出最有代表性的图片 , 就是我感觉代表性这个词其实挺抽象的呀 。

鸭哥24:05

对对对 , 就这一步啊 ,不是 AI 做的 , 这一步是我用传统的机器学习做的 ,是什么意思呢 ? 它就是把那些长得特别像的 , 比如说我一直在电脑前面编程 , 那长得特别像它就被合并了 , 合并完了以后它再比较各个图片之间的差异 。

Ronghui24:20

就是有哪些是你觉得 , 比如说意料之内 ,有哪些你意料之外 ? 刚说那个我觉得健康那个可能还是蛮意料之外的 。

鸭哥24:28

是的 , 意料之内的 , 比如说我就很感兴趣 ,在我生活中有很多物品 , 我就感兴趣它能不能看出来是什么东西 。

那举个例子来说 , 我比较喜欢这样的小模型 , 它是一个电影摄影机 , 然后呢 , 结果哇 , 它从品牌到型号 ,Gemini 品牌到型号全部认出来了 ,而且推断出了很多啊 , 你很喜欢摄影这样的小线索 , 这些是意料内的 ,但又意料内又意料外, 就是它能注意到这些细节是我希望看见的 ,是意料内的 ,但是它能够这么精确的说出来它的品牌和型号是我没有

意料到的 。

抹平信息差25:05

Ronghui25:06

因为我感觉就是你是在用声音 ,在用图片 ,在给它提供你生活各个维度的信息嘛 , 就是让它来更全方位的了解你 。其实我感觉就是听下来会特别强烈的感觉 , 我们跟 AI 所知道的信息是非常非常不对等的 , 然后我觉得你其实也是在抹平这个信息差 。

当你可以给 AI 更多的信息之后, 可能可以发生什么呢 ?

鸭哥25:31

对 , 这是个特别好的问题 , 我非常赞同这个观点 ,是人类和 AI 面临的信息差特别大 。其实你举个例子啊 , 就比如说我们如果在公司里面想要做一个新项目 , 你要开一个新的 initiative, 我们第一反应其实不是会去写一个 doc 或者去写一个 AI 的提示词 , 我们第一反应是去找另外一个工程师 , 我们喝杯咖啡 , 然后在这个过程中间我们就讨论啊 , 就把一些细节或者

框架就敲定下来 。 或者另外一个例子呢 , 就是说你跟老板开会 , 老板眉头突然皱起来 , 你立马就知道 , 嗯 , 这里我要想一想 ,是不是有什么坑 , 我讲的不对 。

那这些 AI 它没有眼睛没有耳朵 , 所以它完全不知道 。 那这是一件非常值得思考的事情 ,是啥意思呢 ?

就是说我们现在人类社会啊 , 它是围绕人类展开的 , 这是一句废话 ,但是呢 , 这主要是因为以前没有 AI 这个东西 。

那如果我们把这个社会变成 AI native, 或者至少 AI friendly, 把这个信息的鸿沟给抹平的话 ,也许 AI 能够发挥于现在十倍百倍的能力 , 能够加速我们科研啊 , 生活的各个方面都有可能 。

所以这个是一个特别 ,不论是从产品的角度 , 还是从社会的角度 , 都是特别值得思考的一个问题 。 然后回到你的问题呢 , 就是说如果未来我们能够抹平 , 那会出现什么呢 ?

我现在主要在探索两个方面 , 我感觉特别有意思 。 第一个方面呢 , 就是你看我们现在用的所有 AI 产品 , 都需要我们干一件事情 , 就是表达我们的意图 , 比如说 ChatGPT, 你要按一下那个发送按钮 , 你必须要按一下才可以 。

然后包括你像 Hey Siri, 对吧 , 你把我这个叫起来 , 你要喊一声它才会出来 。 那有没有可能我们让 AI 未来能够主动的介入 ,而不是去我们需要去被动的去 intentionally 把它呼出来呢 ?

比如说我在讲话 , 突然我说了一句法国的首都是伦敦 ,AI 就蹦出来说不对 ,是巴黎 , 我就赶快更正 , 这比我事后再更正要好很多 。

那像这种 , 我觉得现在这个技术雏形已经是有了的 ,但是好像还没有太多针对这个方面的探索 。 我想象的未来应该是每个人戴个 XR 眼镜 , 然后你做汇报的时候 , 就像那个战斗力显示器一样 ,不是每个人头上出一个小气泡 ,但说的呢 ,不是他战斗力了 ,是说他喜好是什么 , 你要用什么样的策略去说服他 , 然后你下面要说的东西的提纲是什

么等等等等 , 就有点像是我们的外脑一样 。 它不是以像我现在做的实验 , 还是以天为单位来 reflection, 它会以秒为单位去指导我们 , 这个是一个特别有意思的一件探索 。

Koji 杨远骋28:12

对 ,因为前天我刚见了一个这个 startup, 它还在 , 就是我现在就是经常在的这个 AI Hacker House 附近 , 五百米就走路就可以去他们的 office, 然后他们在做那个产品叫做 Proactive AI, 就是一个主动式的 AI, 然后它做的事情就是全天就是实时的听你的一切 , 然后呢 , 它会主动的去识别什么时候你有需求 , 然后在你提出问题的时候 , 争取能够先你一步来帮你把你的问

题给解决掉 。 所以这其实是一个我觉得和鸭哥刚才讲的一样吧 , 类似吧 , 就是大家在做的这种主动式 AI 的探索 ,但他们其实这个团队我觉得就是非常的有意思 , 然后也有很多过去成功的项目的经历 。

那现在做的这件事情 , 我觉得是一个巨大的一个新的挑战吧 , 就是你怎么样能够处理那么海量的数据 。

那当只有比如说我自己一个用户的时候还好 , 把单单用户到了一万 、 十万 、 百万的时候如何处理 。

然后第二是怎么能够识别这个时候是用户需要的 ,而不是用户认为被打扰的 。 就你不能天天就是三番五次跑出来 , 用户把你关掉 , 那来个几次用户也不想再用 ,也不会再续费了 。

但是就是我觉得他们在做的这个探索啊 , 感觉是未来一个一定会发生的可能 ,但是到底是谁做出来的 ,是这样一个在上海的 startup, 当然他们做其实是这个做 global 的一个生意啊 , 然后还是是比如说 Apple 或者 Meta 这样的大厂 ,但不知道 ,但我觉得这一天就是一定会有到来的那一刻吧 。

鸭哥29:46

是的 , 非常有道理 , 出必买 。

Koji 杨远骋29:48

对 , 出必买 。

鸭哥29:50

我还感觉有一个很有意思的思路 ,是那种回溯式的调用 , 这是啥意思呢 ? 就我们现在用 AI 很多时候也是说你要先按一个钮 , 然后跟它说话 , 像 ChatGPT 是这样 , 然后再按一个钮发送 。

那因为我们现在有了 24 小时录音的 Apple Watch,有一种可能是那种回溯式的 , 就有点像相机那种 pre-recording 的功能 , 它一直在录 , 然后呢 , 你按一个钮 , 它不是让你开始说话 ,而是把之前录的音的 , 比如说一分钟截取出来做语音识别 , 让 AI 看 , 哎 , 我能为你做些什么 。

这个也是降低摩擦的一个很好的手段 。 我觉得这也是一个如果跟主动介入结合起来 , 可能是一个互补的一个用法 。

Koji 杨远骋30:30

你让我想到的就是我和 Proactive 这个团队聊天的时候 ,他们说我们都知道 AI 需要上下文 ,但是有时候 AI 需要的上下文不是过去和此刻的上下文 ,有时候 AI 需要的 maybe 是未来的上下文 。

所以这也是他们做一个全天监听 ,并且在你需要的时候跳出来主动式服务的 AI 的一个感受 。

鸭哥30:50

嗯 , 这个确实有意思 。

AI买菜寄快递30:51

Koji 杨远骋30:52

对 , 那我们再聊一聊鸭哥另外一个有趣的实验啊 , 就是当他做了一个这个 AI 的耳朵 、AI 的眼睛之后, 好像他也不希望就是 AI 只是一个他的大哥 , 只是一个能够帮他出谋划策 、 出主意的一个人, 希望 AI 去帮他做更多具体的生活中的事情 。

可不可以讲一讲这个部分 , 你是怎么做的 , 鸭哥 ?

鸭哥31:16

是的是的 ,以前 AI 可能更多的是个嘴炮吧 , 就我跟他在网上互相打嘴炮 , 然后我去执行 。 但是呢 , 越来就发现 , 哎 ,有没有可能我让他也长出手脚 , 你帮我干活好不好 , 就类似这样 。

后来真给我找到了几个挺有意思的应用场景 , 这主要是 ChatGPT, 它发了一个功能叫 ChatGPT Operator, 刚开始这功能其实挺难用的 , 它是基于 GPT-4o 的 , 所以很难用 。

后来有一次升级成了基于 o3 的 , 哎 , 就很好用了 。 我就让他试着让他干两件事情 , 发现他干得还蛮好 。

第一件事情呢 ,是让他去买菜的网站上面 。 以前比如说我们在网上买菜 ,Instacart 呀或者是 We 呀 , 你想想你要先去搜索框里搜索 , 然后去那里面选我要买这个菜 , 然后重复这个过程 , 你就要停下来想我到底要买什么菜 , 就非常痛苦 , 经常买个二三十分钟很常见 。

但是呢 , 如果用了这个 , 我就可以直接用语音识别跟他说啊 , 你帮我买青菜 、 萝卜 、 大白菜之类东西 ,他自己去搜索 ,他去帮我加购物车 , 然后如果需要的话 , 我会跟他说你先别慌 , 搜 , 你先去我的历史订单里面看一看 , 比如说每一个菜我最喜欢哪一种 ,因为它有不同的牌子呀 , 然后呢 , 基于这个信息你再去搜索 。

我发现他 , 哎 ,也都能听懂他 。 后来呢 , 我的这种工作流程就变成了我直接跟他说 ,他去看我的历史订单 , 甚至有时候能帮我预测出来哪些菜我没了 , 主动帮我加进去 。

那后来我买菜就变成了我按个钮 ,他可以保存任务 , 我按个钮 ,他哐哐哐把这些东西做完了 , 都加到购物车里面 ,但是不买单 。

我去购物车里面看看哪些不要 , 把它删掉 , 然后买个单就可以了 。 那这样买菜的过程就从二三十分钟变成了五分钟左右 , 就非常省时间 。

然后第二个例子呢 ,是美国寄包裹 , 太痛苦了 , 就有点像那个国内填地址 , 你也要填省市区啊 , 然后街道地址啊 , 它有很多很多各 GUI 上有很多很多各文本框 , 你需要去不停的切换 , 然后还要选 , 对吧 ,有时候要选北京市 , 然后还要选什么区等等。

美国也是一样 , 特别痛苦 , 每次寄一个包裹我都要填五分钟 , 还要选什么承运人啊 , 到底里面有什么东西啊 , 多少克呀 , 它的尺寸啊 , 麻烦的要死 。

但后来我就发现 , 哎 , 我也是 , 量好尺寸之后直接语音识别跟 AI 说 , 这个是复制粘贴一个地址 , 这个是它的尺寸 , 你给我寄过去 , 选 USPS,不要保险 , 这样 。

然后它就在后台哐哐哐的点 , 点了五分钟跟我说 , 哎 , 点好了 , 你去买单吧 , 我就去购物车里一看买个单就好了 。

这也是一个很小但是特别有意思的能够自动化的例子 , 感觉让我就省了很多时间 。

Koji 杨远骋33:59

哎 , 感觉你做的这些事情都是在就是极致的提高自己的效率 。

鸭哥34:04

是的是的 , 这也是蛮有意思的一点 , 就是扯到一个我比较感兴趣的话题 , 就是赛博长生 。 我比较喜欢修仙小说 , 就经常看 , 包括前段时间也看凡人修仙传 , 我做了一个修仙宇宙 , 那个再说了 ,但是我感觉追求的一个东西就是所谓的赛博长生 。

赛博长生34:22

鸭哥34:26

这个赛博长生指的倒不是说什么肉体永生啊 , 或者是上传意识啊 , 这些虚无缥缈的东西 。 我想的更多的是每个人哪怕时间你活的时间是一样的 ,但你做的事情是不一样多的 。

那优化主要是就是干这件事 。 我举个简单的例子 , 比如说买外卖 , 买外卖比如或者是买菜 , 网上买菜呢 , 我可能要花一百二 ,但如果我真的去超市呢 , 我只要花一百块钱 ,因为有服务费啊 ,有寄送费啊 , 还有他加价啊等等。

但是呢 , 如果去超市我开车来回 , 再加上挑选结账可能要一个小时, 网上买菜像现在我五分钟就点完了 , 那等于呢 , 我就是花了二十块钱买了五十五分钟的命 。

从某种程度上来说是这样 。 那如果你用医疗费的角度来说 , 花二十块钱买五十五分钟的命 , 我觉得啊 , 大多数人应该都会觉得我会愿意去做这样的事情 。

但是大家一说啊 , 我买菜要贵二十块钱 , 大家又会觉得 , 哎 , 我不干 。 这是个挺有意思的一个比较 ,但是我觉得就有点赛博长生的这种感觉 。

Koji 杨远骋35:26

有些人喜欢逛菜市场啊 ,他会觉得这个是我这个享受的 , 我的这个快乐的其中一个部分 , 或者我买来的命 , 我想把这个命拿去逛菜市场 。

鸭哥35:36

哎 , 对对 , 这个也是可以的 , 对 , 这是非常非常有道理的一种想法 。 但就像有的人如果他不喜欢的话 , 就把这个时间花在比方陪伴家人啊 , 或者我就去打游戏啊 , 我什么都不干啊 , 就某种意义上是一种长生 。

Ronghui35:49

觉得有的人可能他喜欢 , 比如说去逛 Costco 这种体验 ,但是可能我觉得像你说的 ,有的人他可能他不喜欢这个 , 所以 。

鸭哥35:58

是 ,但这个没关系 , 就有的人他要是喜欢逛超市啊 ,他可以去花别的地方的钱 , 去买别的地方的时间 , 或者叫时间置换 , 用它来把这个省下来的时间拿过来逛超市也是可以的 。

Koji 杨远骋36:12

其实我们上一期节目啊 , 就是这个访谈 Rockflow 的 Vaki, 然后他提到他们新推出的一个金融 Agent 叫 Bobby, 然后他说做了这个金融 Agent 之后 ,他们原来公司做的 APP Rockflow 他觉得没必要了 ,不需要存在了 。

然后我们在节目里面也问他说 , 那什么时候你准备把整个 APP 给干掉 , 只保留一个对话式的一个 Agent Bobby, 然后他是说今年年底 ,但我这个持一个这个谨慎乐观 , 那我准备到年底的时候再去看一看 。

但是这个与此同时 ,其实最近 Welcome and Nature 做了一个 Startup Day Startup School, 然后 Sam Altman 也在那上面有说 , 就是 GUI 很可能未来会不存在 。其实刚才和鸭哥聊到的时候 , 你也有提到 ,其实之前和鸭哥在聊天的时候 ,他也有提到类似的观点 , 这个我也请你展开讲一讲 , 就你怎么看 GUI。

鸭哥37:02

是的是的 , 这个从买菜的例子感觉是一个蛮有意思的东西 ,是这样的 ,GUI 它产生的初衷是为了降低人们使用电脑的门槛 。GUI 出现之前 , 大家都用命令行 , 你需要是一个码农 , 你需要知道怎么输入命令才能调用电脑的算力 。

有了 GUI 以后, 每个人非常直观 , 哎 , 我会点鼠标我就可以用了 , 它降低了门槛 。 但是你看一下在我们买菜啊寄快递的例子里面 , 它起到的其实是一个反作用 , 我必须要去点那么那么多的格子才可以 。

那如果我要是像现在这样 , 我直接给它一个自然语言的指令 ,AI 帮我去跟 GUI 交互 , 就有点像是我的一个分身或者一个代理一样 , 反而把效率提高了 。

所以这确实印证了前面的观点 , 是一件蛮讽刺的事情 ,但是也一定程度上说 , 这个几十年前出现的一个东西 , 一个技术可能未来还有优化的空间 。

Ronghui37:54

你现在有看到哪些公司在做类似的事情吗 ?

鸭哥37:58

指的是用其他的交互方式来替代 GUI 吗 ?

Ronghui38:02

嗯 。

鸭哥38:03

感觉现在确实有很多 , 我没有特别系统的统计过 ,但是像一个很有意思的例子是 Apple Watch, 它最近推出了一个新的交互方式 , 就是你把手这么 tap 一下, 它就可以作为一种交互方式 。

那这就是一个典型的例子 。 而且像如果我们未来有了这种眼镜的话 , 手的这种非常细微的这种动作可能也可以作为交互的方式 , 包括甚至像这种甩手啊 , 这种 IMU 的变化 , 方向变化都可以作为交互的方式 。

感觉想象空间是很大的 ,但到底这个技术应该是什么 , 我还没有太多的想法 。

Koji 杨远骋38:44

嗯 ,其实我觉得鸭哥特别像这个我们做互联网产品 , 产品经理都知道有一类用户叫 Early Adopter, 就是早期采纳者 ,他们比其他人都更快的去拥抱新技术 。

那我觉得可能鸭哥是 Early Adopter 中的 Early Adopter。

鸭哥39:01

是 , 比较 geek。

Koji 杨远骋39:03

所以这里想问的就是 , 最近你有用到什么让你感觉有意思的新产品吗 ? 就比别人更早的感受到这个产品有可能未来会成大爆款 ,不管是软件还是硬件 。

鸭哥39:15

其实我暂时可能想不到 ,因为是这样的 ,AI 领域大家很多产品都是在一个 umbrella 下面 , 它比如说都叫 ChatGPT,但它每周发布一个新特性 。

很多比如讲 Codex 呀 Operator 啊 , 它都在 ChatGPT 这个名字下面 ,但是我感觉我目前没有看到一个充满亮点的综合性的产品 ,但是确实有不少某个产品中间的具体的特性让我特别兴奋 ,而这也是驱动我去做自己的那个山寨版的 ChatGPT 的原因 。

它里面有很多各种各样的其他的小产品的想法 ,但是我就感觉这里面代码大多数也不是我写的 , 都是 Cursor 写的或者 Tree 写的 。

我就感觉 AI 确实让我们就不用回答这个问题 ,不用说我在等待某一个厂商去做出我心仪的产品 , 正好等到那个爆款 ,而是让我有能力把我的想法灌注到这些厂商已有的产品里 , 做出自己真正满意的产品 。

Koji 杨远骋40:20

就可以自己去魔改 , 方便的魔改 。

鸭哥40:22

对对对 。

Koji 杨远骋40:23

这让我想起早年这个 QQ 大家不满意 , 然后后来有一个魔改的 QQ, 那个叫什么名字来着 ?

鸭哥40:30

对 , 还写 IP 啊什么 。

Koji 杨远骋40:32

对对对 , 然后后来还有很大的一场官司 , 就腾讯去 sue 它 。 但当时也是为了满足大家觉得 QQ 太简单了 , 我需要一个就是丰富的五花八门乱七八糟的 QQ。

因为鸭哥上次来十字路口 , 我们是在 Manus 刚发布啊 , 然后那一期其实聊得很硬核 ,不像今天那么轻松 。

那一期聊的是 AI Agent,20 问就是方方面面 , 我们给大家科普了 AI Agent, 然后借鸭哥的这个浩瀚的知识 。 然后比较想问你的就是 , 从那个时候到现在过了三四个月了 , 然后你最近还在用 Manus 或者以 Manus 为代表的 Agent 产品吗 ?

是在什么时候会用它们 ?

鸭哥41:10

我一直在用 Manus, 主要的场景是当我在外面没有 , 比如坐在电脑前面的时候 ,但是我又想做一些简单的计算呀或者是调研啊 , 我会用 Manus。

我举个例子 , 最近我在拍卖咖啡叫 Best of Panama, 它是一个咖啡界的最好的拍卖会 , 然后呢 , 它有一个 sample box, 就你可以花一些钱去买一个它每一小盒咖啡 100 克那种很小的 sample box。

我就很感兴趣说这 sample box 到底应该值多少钱 。 那一个很简单的方法是 , 你就去网上看一下它去年的拍卖价格 , 然后把它每一个价格乘以 100 克就能算出来 。

那人手工算这件事情肯定是特别不划算的 ,而且要花很长时间 。 我就直接花了 30 秒跟 Manus 描述了一下我的需求 , 让它去算算算 。

它搞了大概 10 分钟 , 给了一个网页出来 ,有它的中间结果 ,有它的最终的一个前述 。 我一看 , 哎 , 这个前述如果照去年的拍卖价格来看 , 比今年的售价要高很多 , 那我就拍板买了 。

这就是一个很有意思的使用 Manus 的小场景 。

Koji 杨远骋42:17

哇 , 我感觉你每天生活真的要关注的事情好多呀 。

鸭哥42:21

是的是的 , 这其实就是我们刚才说的赛博长生嘛 , 你要是没有这个 , 那你要不然就是硬着头皮相信我一定是赚的 , 要不然你就是去老老实实手算 , 搞个 Excel 花个半小时, 那你有了 Manus 你就省了半小时的命 。

人机共生42:37

Ronghui42:37

对 , 我就有一个模糊的感觉 , 就是我感觉你能量好高啊 , 这种能量高是来自于说是 AI 帮你干了很多本来你需要干的活吗 ?

就是可以帮你省很多精力 。

鸭哥42:50

我觉得有这方面的因素 , 就主要是这样的 , 能量呢 , 我觉得是一个相辅相成的东西 , 就不仅是个性的原因 , 还有你每天干的事情的原因 。

就你每天如果干的是正能量的事情 , 举个例子啊 , 工作上体力活都是别人干 , 你干那个最有意思的 、 最有挑战性的部分 , 然后这个情况你的能量就很高 。

如果每天都是别人那种擦屁股的活我来干 , 那我肯定能量就不高 。 所以我觉得这又引到那个我要传教赛博长生教上面 , 就是生活不仅仅是刚才我们说过是密度 , 现在还有一个是能量 , 就是啊 , 或者说叫做质量 。

我如果我把体力活像刚才说那种调研的活全部扔给 AI 去做 , 我就去做最终的决策拍板 , 哎 , 我来喝这个咖啡 , 我来买 , 那这个是最最开心的 , 那人也自然而然变得更高兴了 , 寿命也一定程度上就可以说是延长了 。

Ronghui43:45

但我感觉我好像接触的人里面哈 , 就是简单粗暴的分一下的话 , 我感觉就是是橄榄球的两头的人是比较开心的 , 一头是像你这样子就是用 AI 用的比较应该怎么说 , 这个就是就是用得很好的人吧 。

然后另外一头就是他根本不关心这个事情 ,他可能他也没有这个信息的困扰 。 然后中间的人呢 , 就是我感觉至少我觉得我在中间哈 , 就是这种每天觉得有很多东西要学 ,有很多东西还没学会 , 然后就是一直在这样子的一个拉扯的状态里面 。

我感觉比较快乐的是两头的人。

鸭哥44:19

嗯 , 这确实也是命运的恩赐 , 我感觉很多时候也是 。

Ronghui44:24

哎 , 你自己做这些动手做这些东西 , 你自己觉得就是它的特别大的乐趣是什么呀 ? 就我感觉你是很享受这个 , 很享受这些的人。

鸭哥44:34

是的 , 我感觉就是做出来啊 ,以前做不到一件事情 , 就像学开飞机一样 ,以前我不会飞 , 现在我学了我会飞了 , 那这本身就是一个非常对某些人来说是能力的突破 , 是一个非常大的奖励 。

Ronghui44:47

正好也最近看了你写的那个小说是吧 , 就是最近博客上那个最近的那篇文章 , 然后我当时看就想说哇 , 研究 AI 还可以回头写小说 。

鸭哥44:59

是的是的 ,而且其实那小说也是 AI 写的 ,也不是我写的 。

Ronghui45:02

啊 ,是吗 ?

鸭哥45:03

对 , 当然啊 ,其实词是我写的 。

Ronghui45:06

OK, 然后这个是代表你说的那个对赛博长生的一些想法吗 ? 比如我对里面其中一个情节还印象挺深的 , 就是一个很疲惫回家的人, 然后他太太心情不好 , 然后他那个时候他其实已经没有能量了 ,但是此时 AI 在旁边提示他他应该说什么 。

鸭哥45:24

是的是的 , 这个是我的一个想法 ,但是你稍微一想就会觉得很多时候它有很荒谬的一面 , 比如说如果跟太太相处的时候还需要 AI 来提示 , 那这还是我吗 ?

但是很可悲的一点是很多时候 AI 提示的真的就会比我们做得更好 ,因为它是绝对理性的 , 它有足够多的信息能分析 , 比如说伴侣他的思维模式啊等等 , 这个就很容易就陷入一种推进式的冲突 。

Ronghui45:52

哎 , 那它代表就是你写的这些小说 , 它有代表你对未来的生活的怎么样子的想象 , 就是你提到这种赛博生活方式 。

鸭哥46:00

是 ,其实可能一个字概括是别扭吧 。 就你如果看那些小说的话 , 我可以简单叙述一下一些典型的情节 , 就是一个人他回家发现太太在工作压力很大在哭泣 ,他就 AI 这时候就提出来说你现在有几种选择 , 你可以我上网给你搜个笑话你跟他说 , 或者说我给你一个文案你照着念可以让他稍微开心一点 , 或者呢 , 我去我有一系列的给你一个大礼包 , 你照着

做有动作语言情绪 , 你照着做呢 , 我就能保证他一定能开心起来 。 但是呢 , 每个都是要收不同的 AI 预算点的 ,他当他下周还有一个非常重要的工作会议 , 就要用那些预算点 , 所以他就只好选了最便宜的那个 ,也没什么用 。

所以就如果你看它一共有四个微小说 , 你看这些的话 , 翻译里面有一个主题就是冲突 , 它会逼着人们去做出一些不得不做出一些特别痛苦的选择 。

所以我还是我也不知道 , 我比较悲观 , 我又比较乐观 , 技术上比较乐观 , 又比较悲观 , 从社会的角度又会带来很多也许我们没有能力去解决的问题 。

Koji 杨远骋47:04

哎 , 你会不会有时候觉得就是现在你这么用 AI,AI 可能比你身边任何一个朋友甚至家人都更懂你 ,也更能给你提供帮助 , 就想到这一点你会觉得是开心 、 失落 、 恐怖还是什么样的一些感受啊 ?

鸭哥47:21

这是一个特别好的问题 , 我也其实我跟 AI brainstorm 过这个 , 那它是一个挺恐怖的事情 , 原因是当你发现这一点的时候 , 你就会不由自主的去越来越用它 ,有点像成瘾一样 ,因为它确确实实能让你工作 , 比如说晋升更快 , 能让周围的人更他的情绪更好 , 你给他们带来正能量 , 给他们安慰 , 用的词啊什么东西都是最有效的 。

但是就像我刚才说的 , 这还是我吗 ? 这是我在活还是 AI 借着我这个躯壳在活 ? 很多时候这个界限好像还蛮难划分的 。

Koji 杨远骋48:01

AI 借着你的躯壳在活 , 你有时候会有这样的感受 。

鸭哥48:05

不一定那么直 ,不一定那么极端 ,因为现在毕竟我们还没有那种像小说里面说的那个 AR 眼镜啊之类的 ,但是很多时候确实我会比如工作时候做一些决策 , 我会问 AI 你觉得什么样的决策更好 , 或者生活中间啊 , 我会问 AI 说小一点说我明天去哪玩啊 , 大一点说比如说家庭中间的矛盾怎么处理 , 它会给你一个很理性的那种很成熟的解决方案 ,

真的是很有效 。 它比我意气用事 、 凭感情用事效果好很多 ,但是这一定程度上就是决策都是 AI 在做 , 我只是它的一个执行器而已 , 还挺恐怖的 。

Ronghui48:50

你身边跟你类似这种生活方式的人多吗 ?

鸭哥48:53

不多 , 这个感觉还蛮少 ,但不一定是因为一方面可能是因为人少 , 另外一方面可能是因为这个空间太分散太开放了 , 所以大家隔得就比较远 。

Koji 杨远骋49:08

你指的是什么 ?

鸭哥49:09

指的是 AI 这个使用 AI 的方式这个方向 ,因为太新了 , 所以每个人他的观点不一定一样 , 所以就算大家都是 early early adopter,但因为这个可能的空间实在是太广博了 , 所以每个人在使用 AI 的方向上离得就比较远 。

Ronghui49:29

我感觉就好像以前看过一个电影 , 就是具体名字我忘了 ,但是我记得是那个 Bradly Cooper 演的一个电影 ,他是在里面他从一开始就是有点穷困潦倒 , 后来他发现了一种聪明药 ,他就每天吃那个聪明药 ,他吃了那个聪明药之后整个人精力特别旺盛 , 变得特别聪明 , 做什么都做得很好 , 然后变得很有钱 。他就对这个聪明药非常的依赖 , 就完全不能没有它 ,他最后

就走上了一个生意 , 就是他要去生产这个聪明药 。 最后的结果就是我如果没记错的话哈 , 最后的结果就是他最后不能吃这个聪明药 ,他还是要回到正常的生活 。

就我有的时候看会有一点点这种感觉 , 很像这个电影里面演的 。

鸭哥50:11

是的是的 ,但是一个很恐怖的地方是我在听了你刚才说这些话之后, 我的第一反应不是针对这个剧情做什么反应 ,而是想我要是现在有一个 AR 眼镜 , 把这个电影的名字根据你刚才的描述搜索出来就好了 。

这有点黑镜式的那种递归的感觉 , 我就很需要那个聪明 。

Ronghui50:34

你是 AI 加强过的人类 。

鸭哥50:36

是的是的 , 它就是一个外脑 。

Ronghui50:38

我想问一个问题 , 就不知道会不会有点冒犯哈 , 就是你有想过就是你用这些你有失去过什么吗 ?

鸭哥50:46

这是个很好的问题 , 我暂时好像想不到我失去了什么呀 。 我想想啊 , 技术啊 , 效率提高了 , 失去了 ,但好像我跟 AI 讨论过这个问题 , 它说的是我可能就是是这样的 , 我每天都会记我干了什么事 ,在有了 Apple Watch 录音之后, 这个记就更容易了 。

我就有时候呢 , 我会把这几个月的录音啊或者总结出来的东西扔给 AI, 问它你觉得我有什么地方需要改进 , 或者你有什么建议 。

它的感慨就是你的目的性太强 , 你做的每件事情都有自己的目的 , 比如说我要做这个产品 , 我要干这件事情 ,但是你没有放空的时间 。

所以如果说失去了什么 , 可能就是失去了那种完全放空的闲暇感 。 但是我又想一下 ,有没有 AI 可能 ,因为我也很喜欢折腾 ,以前没有 AI 的时候去学飞机什么的 , 可能就会用其他的垃圾时间来堆满 ,也不会有闲暇感 。

Koji 杨远骋51:40

哎 , 鸭哥 , 你有没有想过有一天如果你离开了 ,但是 AI 对你的了解还存在 , 所以好像某种意义你还活着 , 然后别人可以通过它来继续和你对话 , 你愿意吗 ?

鸭哥51:54

Why not, 对啊 , 反正我都离开了 , 那后面发生什么事我也不知道了 , 爱怎么样怎么样都可以啊 。 但是这确实也是很有意思的一个东西 , 就是我刚才说赛博长生嘛 , 这一定程度上变成赛博永生了 , 关键就是死了之后对这个世界还有没有 impact, 另一种程度的青史留名吧 。

育儿与行业52:13

Koji 杨远骋52:14

哎 , 鸭哥 , 你因为有小孩嘛 , 所以在教育小孩这个事情上, 或者在思考小孩怎么与 AI 共同成长这个事情上, 你有哪些观点啊 ?

鸭哥52:24

这个非常重要 , 你看现在啊 , 我的小孩是还几岁比较小 ,但是呢 , 你想想大家对几岁的小孩的期待是什么 , 会数数 , 会做加减法 , 能背唐诗 。

但如果你从成年人的角度来看 , 除了小孩必须要的玩耍以外, 这些技能真的有用吗 ? 我好像从来没有用过这些技能 ,但如果你从小就培养他怎么跟 AI 相处 , 就比如说像我这样的直觉 , 你知道哪些东西是可以用 AI 做的 , 可以代理委托给 AI 做 , 哪些东西是你的 core competency, 你最好不要让 AI 做的 , 怎么样去衡量 AI 的工作的质量 , 当好它的老板 。

就这种能力 , 如果从小潜移默化培养的话 , 我觉得比背八百首唐诗都要有意义的多 , 比你早两年会无数的乘法都要更有意义 。

所以我自己是相信未来的年代 , 及早的让小孩接触到 AI,并且学会用 AI 是一件很重要的事情 。

Koji 杨远骋53:19

他现在几岁啊 ? 他现在在和 AI 怎么互动 ?

鸭哥53:22

他现在才三岁多 ,但是跟 AI 主要就是讲故事给他听 ,他跟 AI 没有太多互动 。 我们会用 ChatGPT, 它有一个实时对话模式 , 我们也在探索怎么样引导它跟 AI 讲话 ,但是目前它也不是特别感兴趣 。

但是呢 , 我们用 Manus 干了一件事情挺有意思 , 就是它会喜欢睡前听故事 ,但是我们就会夹一些私货给它听故事 , 比如说讲个白雪公主的故事啊 ,但是小孩在好好吃饭啊 , 就类似这样 , 它还挺愿意听的 。

Koji 杨远骋53:56

我觉得因为我们节目这个 , 这是很特别的一期哈 , 就是对 ,因为其实十字路口之前聊的多数都是 AI 的创业投资技术等等 , 那这一期是我们非常特别的一期 , 就是我们找到鸭哥 ,他既是创投行业内的人 ,但同时呢 ,他又是一个这个刚才我们说到的这个 early adopter 中的 early adopter,他是一个超超超级用户 。

我们今天聊的内容和之前都特别的不一样 , 然后最后我们还是有两三个问题想问一下鸭哥吧 , 就是你自己作为这个行业内的人 ,在最近这几个月你有感受到哪些变化让你觉得特别的带劲 , 或者它意味着很大的这个商业上的价值 ?

鸭哥54:41

我有两个感触 , 第一个感触是 AI 的进化速度一直没有减慢 , 如果说两年前或者三年前在 ChatGPT 出现前 , 我没有办法想象现在的 AI 会是什么样的话 , 那六个月前我也想象不到现在 , 比如说 Claude code 呀 , 各种各样的工具啊 , 这么成熟 , 甚至比如说 Facebook 开出了一亿美元的 sign on bonus, 我根本不敢想 。

所以我觉得它的进化速度一直没有变慢 , 可能真的已经在走向极点的路上 。 第二个感触是 Agentic AI 在一直成为潮流 , 这个我是非常坚信 Agentic 是正确的 AI 方向的 ,而且也很高兴的看见它也在成为潮流的路上, 所以我也觉得它特别带劲 ,因为我自己也在做相关的 Agentic workbench 这样的产品 , 所以这两个是我的主要感触 。

Koji 杨远骋55:38

在现在涌现出来的这些这个 startup 里面 , 你有特别看好的吗 ? 或者如果你自己今天可以去选择一家加入和他们一起做的话 , 你会选择哪一个 ?

鸭哥55:49

很多很多我特别喜欢的产品 ,而且每天都在用 , 所以而且每个我都有一些想法 , 很多我都有一些想法说怎么样去把这个产品做得更好 。

如果我能够有能力做出数字分身的话 , 要是给很多家公司工作那就太好了 ,但是可惜我还在进化中 。

Koji 杨远骋56:12

鸭哥 , 你刚才讲到非常多你都觉得很喜欢 , 同时如果你去做你可以做的 , 能做出一些不一样的点出来 , 可不可以讲那么两三个呀 ?

鸭哥56:22

我特别喜欢的一个产品是 ChatGPT, 我觉得他们的产品比 Gemini 和 Claude 都是两三个升位的领先 , 这是我个人的观点 。

然后呢 , 比如说我就希望如果我去做 ChatGPT 的加新功能 , 会是一件非常好的事情 ,但是呢 , 我又特别讨厌 Gemini 的 app, 具体吐槽我们可以回头再吐槽半小时 。

所以呢 , 我也希望如果 Google 能够让我去做这个产品的话 , 我也很愿意去 contribute, 当然其他的 startup 也有很多了 , 像 Manus、Cursor、Tree 啊 , 我都有挺多的想法 。

Ronghui56:59

你刚说你自己在做的那个是什么呀 ? 方便说吗 ?

鸭哥57:02

我就是山寨版的 ChatGPT,但是里面加入了几个功能 , 就一个是 transparency, 加入了现在像 ChatGPT 啊或者是 Gemini 他们的 deep research 都没有提供任何内部的信息 。

我通过虽然还是调用他们的 API,但是加入了更多 transparency, 让我们可以知道 AI 是怎么思考的 ,以及有干涉的机会 , 这是一个 。

另一个是给了它更多的工具 ,因为上次在 Manus 20 讲也提到工具的复利效应 , 我也相信这点 。 我给了它很多工具 , 比如说能去 YouTube 上做语音转录啊 , 能接入我自己的数据库呀等等 , 就争取让它变得更好用 , 更符合我个人的习惯 。

Ronghui57:44

你这个一天的时间分配是怎么样子的呀 ?

鸭哥57:47

其实我每天工作时间也就两到四个小时 ,因为都是 AI 帮我干活 , 它写的 code 真的太快了 。 但即使是这样 , 我提交代码的行数在全公司仍然是前四 , 当然前四就是第四了 , 哈哈哈 。

但而且工作成果也确实比较多 , 所以因为 AI 的帮助 , 所以我有很多的时间可以去做自己的事情 。

Ronghui58:12

那你如果给一个跟你类似工作的一个人的一个工程师 , 对吧 ?

鸭哥58:17

是 。

Ronghui58:18

对 , 那你如果给一个跟你类似的一个工程师怎么样来 , 怎么说呢 , 让自己更高效的工作的话 ,有什么样子的建议呢 ?

鸭哥58:27

学会用 AI, 哈哈哈 。

Ronghui58:28

默认它已经在用 ?

鸭哥58:30

我的建议是不要把 AI 当成一个工具 , 我们和 AI 的关系不再是比如说我和计算器的关系 , 或者我和汽车的关系 。AI 是一个像人一样的东西 , 我们应该把它当做一个下属 ,而不是一个工具 。

我们给它布置任务的时候 , 要做好一个经理或者说老板所做的事情 , 比如说你要想我的沟通是不是给了它足够多的信息 , 我有没有验证它交上来的活的质量怎么样 。

当它被 block 住的时候 , 我有没有给它提供足够多的帮助 。 当我们用这种心态去看待 AI 的时候 , 你会发现它很多之前让你觉得非常痛苦的那种 failure pattern 都会变消失 。

Ronghui59:10

我最近好像也有这种感觉 , 我昨天在跟别人说 ChatGPT 跟我讲什么什么的 , 我都感觉我在说一个人, 我不是在说一个工具 。

鸭哥59:17

是的 , 这是因为它的能力实在太强了 , 所以我们就被迫要把很多背景给它 。 就怎么说 , 我举个例子吧 , 就大家会觉得开车 , 开车是一件特别简单的事情啊 ,但其实不是这样的 ,是因为我们人把很多复杂的事情给屏蔽掉了 , 比如说交警啊 , 信号灯啊 , 行人啊 , 所以大家会觉得车很简单很可靠啊 。

但是呢 ,因为 AI 太强了 , 所以我们把很多东西任务交给它 , 所以呢 , 现在是 AI 在处理这些东西 。

大家会觉得啊 , 你怎么这么烂啊 , 这不是因为它比车不可靠 ,而是因为我们把更多更难的任务交给了它 ,而这个更难的任务也就意味着我们必须要用新的方式去跟它交互 ,which is 管理学 , 我们要用管理学的方式来跟它交互 。

Koji 杨远骋1:00:03

这可以展开讲一讲吗 ? 怎么用管理学的方式来和它交互 ?

鸭哥1:00:06

总的来说就是这是个很好的问题 , 就是因为首先我们介绍一下管理学这个东西 , 基本上当你要跟一个人布置任务的时候 , 管理学这个东西就自然而然的就需求就出来了 。

这什么意思呢 ? 你要跟一个人沟通这个东西是什么 , 你就要去首先你就要沟通这件事情本身就是一个很难的事情 。

然后呢 , 你需要确认它有没有理解你的你布置的任务是什么 , 然后你还要去帮助它处理各种技术决策 、 技术风险 , 你需要去验证它的交付物有没有完成标准 。

就这整个一套是有一系列的举措来确保的 , 这就是管理学的核心 。 但是呢 ,AI 的管理跟人的管理确实有很不一样 , 比如说人要画饼 , 对吧 , 你要给他说我明年给你升职成资深工程师 ,AI 你不用说给你升职成资深 GPT, 它不需要 。

同时呢 , 你也跟他 one on one 啊之类的东西也不是特别需要 ,但是 AI 有一些独特的东西 , 比如说我们刚才说的它要有 context, 那我们怎么样去维护这个 context, 这个是传统管理学里面不强调的 ,但是你在跟 AI 做合作的时候一定要特别注意这一点 。

所以总的来说 , 与 AI 相处和与人相处是一个非常类似但是又很不一样的东西 ,是需要专门去学习的一种技能 。

Ronghui1:01:29

我觉得上下文这个其实特别的重要 ,因为其实就是人跟人之间沟通其实就有很多我以为你知道你以为我明白 ,但其实我们都不知道都不明白 。

鸭哥1:01:39

是的是的 。

Ronghui1:01:40

对 , 然后你跟 AI 说话的时候这种感觉 , 反正我跟 ChatGPT 聊天的时候我觉得这种感觉非常的明显 ,因为它不知道 , 所以它才会给你说一些你觉得你没有回答在我想要的东西 ,但是我得就是我觉得像你前面举的例子 , 我得给它足够的信息 。

鸭哥1:01:56

是的是的 。

Ronghui1:01:57

它给我的建议就很好 。

鸭哥1:01:58

对对对 , 或者有的时候它可能都没办法给你建议 , 它就开始幻觉了 。 那很多时候幻觉是因为我们没有给它足够多的信息 , 然后它又被训练的说啊 , 我一定要 I am a helpful AI assistant, 我一定要 helpful, 那我又没信息我要 helpful, 那我就找瞎招了 。

这很多时候幻觉是这么来的 。

Ronghui1:02:15

你有没有什么就是你自己平常看 AI 相关的信息的信息源推荐呀 ?

鸭哥1:02:20

我一般不太看具体的网站 , 主要是靠 deep research。 我每个星期有一个定时的任务去让 ChatGPT 去做一个 deep research AI 领域的新闻 , 然后看那个报告 。

Koji 杨远骋1:02:37

果然是非常 AI native。 感谢鸭哥今天来做客十字路口啊 , 然后在好像很多人还在想我要怎么用好 AI 的时候 , 鸭哥已经开始用 AI 来帮他真的过好生活中的一些琐事 , 然后用 AI 去帮他思考 , 像他第二大脑 , 那甚至还用 AI 来帮他去理解这个世界 , 理解自己 。

我们会继续和鸭哥一起观察 , 继续体验 , 然后一起看看这个 AI 的新世界会怎么慢慢的展开 。 好 , 谢谢鸭哥今天的时间 ,也欢迎你改天再来做客十字路口 。

结束语1:02:56

Koji 杨远骋1:03:08

谢谢 。

鸭哥1:03:08

谢谢谢谢 。

Ronghui1:03:09

谢谢 。

鸭哥1:03:10

谢谢 。

Koji 杨远骋1:03:14

如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 。 最后欢迎你加入十字路口的会员群 , 我们鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。