开场0:00
欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。AI 正在给各行各业带来改变 , 我们寻找 、 访谈和凝聚 AI 时代的 " 积极行动者 ", 和他们一起探索和拥抱新变化 、 新的可能性 。
我是主播 Koji 杨元成 , 联合创办了 " 街旁 "、" 新世相 " 和 " 躺倒 "。 我相信科技 , 尤其是 AI, 会在未来 10 年彻底改变社会 , 赋能人类 。
欢迎大家找我聊天 , 碰撞想法 , 链接下一个可能性 。
我是主播 Ronghui, 目前在一家专注科技投资的风险投资机构工作 , 之前在 《 第一财经周刊 》 担任驻硅谷记者 。
本周的 《 十字路口 》, 我们一起来回顾 OpenAI 连续 12 天的发布会 , 到底都发布了哪些新的东西 。 除了让全世界都惊叹的在最后一天发布的 o3 之外, 还有哪些同样值得关注的新功能 、 新技术或者新看点 ?OpenAI 和 Sam Altman 堪称是营销天才 , 我印象中好像也是第一次有科技公司把发布会一开开个 12 天的 , 这让我想起这个 Transformer 的注意力机制 。
这 12 天的发布会也可以堪称是 "Attention is all you need" 的一个绝妙实践 。 持续 12 天的发布会的轰炸 ,不仅垄断了科技媒体的头条 , 更让整个行业的目光都聚焦在他们的身上 。
所以这波营销可以说将注意力经济是玩到了极致 。 本周呢 ,《 十字路口 》 邀请到两位朋友 , 归藏 、 藏师傅和大聪明 , 与我们一起来回顾与讨论 , 这 12 天到底发布了一些什么好东西 。
归藏是 《AIGC Weekly》 这一个 Newsletter 的主理人, 这是全中文的互联网我认为这个最最 —— 这有两个最啊 —— 最最值得订阅的 AI 资讯周刊 。
我追跟了快两年, 几乎是每个周末的必修课 , 获益良多 。 而大聪明呢 ,是 " 赛博禅心 " 公众号的主理人, 也是第二次来做客十字路口了 。在我的朋友圈里面 ,他们二位都是持续 12 天一直在追跟发布会 , 我每天早上醒来第一件事就是看 " 赛博禅心 " 的公众号和归藏 、 藏师傅的即刻 ,他们都是信息的速度和质量的双重保障 。
我们在本周播客的 show notes 里面 , 先整理了这 12 天 OpenAI 逐日发布的具体内容 , 方便大家一边听播客一边做参考 。
好 , 那我们开场的第一个问题 , 想问二位 : 你们认为在这 12 天的发布会里面 , 最值得关注的一个重点是什么 ?
重点速览2:35
嗨 , 大家好 , 我是大聪明 。 这个问题就是我先来呗 。 这里面最值得关注的一个重点呢 ,在我看来可能不是一个重点吧 , 可能是两个 。
第一个呢 ,是毫无疑问 o3 的发布 , 它带来了一个完全的 、 遥遥领先的模型 。 虽然它很贵 , 回答一个问题可能需要 3500 美金啊 , 这个值是我拿尺子量出来的 。
第二个的话呢 ,是它在发布期间就是隐藏了一个细节 ,在第 9 天左右的时候 , 提到了一个开发者的更新 。
这里面的不更新既包括了是 realtime 的 API 的更新 ,也包括了是对 Go 语言的支持 。 但这里面最核心的是 , 它允许了在 o1 以及在 realtime 的时候进行结构化输出 , 这对明年的 AI 的 agent 爆发埋预埋下了
伏笔 。 这两点是我认为非常重要的 。
OK, 好 , 那我们待会可以展开聊一聊这两点啊 ,o3 的发布和在第 9 天这个针对开发者发的一系列的 API。 那藏师傅呢 ,在你看来最值得关注的一个重点是什么 ?
我是归藏 , 然后我觉得也是 o3, 这个是肯定是毫无疑问的 。 就是它 ,因为 OpenAI 其实说实话 , 我们之前对大家对它的指望是 , 它是一直在引领整个整个的行业的方向的 。
就虽然它有些地方不是做得最好的 ,但是它一定会把那个在行业达到困境的时候给出一个新的路径来 。
嗯 , 就是最近前段时间不是 Ilya 说那个预训练到头了吗 ? 那可能在 o3 上我们就看到了这个结果 , 就 o1 还没有那么明显吧 , 就没有那么让人坚信这个推理的进化的方向 。
但是在 o3 上我们看到了很明显的一个一个进步和进展 。 那这个我觉得对整个行业的信心和整个 , 嗯 , 比如说投资啊或者一些其他的东西的信心的提振是非常大的 。
对 , 这个还是挺重要的 。
哎 , 可不可以用什么样的方式让大家感受一下 o3 到底有多强 ?
一个最直接的一个说法呢 , 就是啊 ,有一个程序员的一个大神搒 , 然后呢在那个叫做 Codeforces, 它是一个比 LeetCode 更硬核的一个编程的 , 呃 , 算是技能展示或者是竞技平台 。
很多的非常优秀的程序员都会在里面玩一玩 , 比如是 OpenAI 现任的首席科学家 ,他在这个 Codeforces 里面 ,他的得分是 2655 分 ,而这一次的 o3 他的编程得分是 2727 分 , 就是超过 OpenAI 的首席科学家一大截啊 。
如果放在现行的搒单里面呢 , 能够排到人类的这个第 175 名 , 这还是非常非常离谱的一件事情 。
这个 o3 还有一个惊人的数字是 , 它每做一个单任务大概就需要 3500 美金 , 等于是 2 万人民币 。 然后我看到大聪明也有写公众号说 , 你去问 o3 一个问题 ,9.09 和 9.11 到底谁是更大的数字 ?
那这个问题一下去 ,2 万人民币就没了 。 对 , 这是不是也背后说明这里面还是可以再大力继续出奇迹的 ?
啊 , 这里其实有一个小的细节 ,o3 在比照 o1 的时候 ,o3 它有两个版本 , 一个呢叫做呃低低算力版本 , 它计算一次的任务量大概需要 20 美金啊 , 可能未来我们用的可能是这个版本 。
它还有一个高计算量版本 ,其实也是更详细的模式 , 它的计算量是低计算量的 , 大概是 170 多倍 , 然后算下来的话呢 , 就是 3500 美金 , 大概是有 1000 倍的一个增幅 , 大概 3.5 美金到 3500 美金 ,1000 倍的一个增幅 。
所以其实它那个低计算量模式的话 , 我看它那个 Arc 测试集 , 它那个低计算量模式 75% 点几的那个结果的话 , 它是 20 美金 ,其实这样算的话就还好 。
我看到那个 Arc 的表单 , 这时候你会发现一个很有趣的事情 , 正确率的百分比和消耗算力的指数是成线性关系的 。
我们可以拉出一条直线 , 近乎的直线 , 就是我计算量每就是翻呃每增加 10 倍 , 然后呢我们的这一个准确度可能会增加个百分之多少 ?20%?
嗯 ,10% 到 20% 之间吧 。
这件事情就预知着 , 假如说我们要到达 100%,在这个表单里面到达 100%, 我们的这个算力成本是天价的 。
然后这还不算完 ,在它的一个新的表单里面 , 呃 , 我们现在看到的是 o3 的高计算量模式能够达到 88% 的计算率 ,但是在第二版的 Arc 搒单里面 , 它的正确率就只有 30% 了 , 还会再被压缩 。
那如果我们即便是按照 Arc 的这一个测试集实现 Arc 版本的 AGI, 我们当前的计算成本可能都是在百万美金以上了 。
这我也看到藏师傅有在即刻上发一条很长的内容哈 , 就是在讲说 o3 带给你的一些感受吧 。 然后你还提到一个非常强的说法 , 你说可能在未来几年, 我们会像记住 ChatGPT 的发布时间一样 , 记住昨天晚上的这个 o3 发布的时刻 。
对 ,是什么原因让你对 o3 的发布这么的兴奋 , 认为它是里程碑一样的事件 ?
其实这些是整理了一些大佬们的说法 , 就是比如说陶哲轩说这个技术本来是能顶住大语言模型可能好几年的 ,但现在一下给它拉到了 25% 的成功率啊 , 包括刚才说的那些呃程序员的那个经济的搒单 , 对吧 ?
那这个其实代表了非常令人憧憬的一个一个未来 ,o1 到 o3 只用了三个月 , 那它就达到这样一个进步 。 那如果说这个松放定律继续的话 , 明年上半年我们会不会有 o3.o5?
那如果 o3.o5 放出来的时候 ,在嗯 , 我们就不说其他领域 , 就只说在数学和代码这两个领域 , 人类是不是就彻底无法追上它了 ?
数学和代码其实是我们构建整个软件世界的一个基石嘛 , 所以这个其实它会带来非常大的变化 。
我补充一个信息 , 关于 AGI 的 , 就是上一次参加 OpenAI 的线下活动 , 然后当时的 Mark 的一个分享 , 就是这一次我们 o3 发布的时候 , 就是开局的时候 , 就是 Mark 和 Sam Altman 一块分享的嘛 。Mark 当时说了一个很有趣的观点 ,是我们什么时候到达 AGI, 取决于我们对 AGI 的定义 , 然后很快的让我们会到达我们所定义的 AGI,而那时候我们会对 AGI 再有一个新的定义 , 然后不断
的追赶 。OpenAI 它选取了 Arc 作为 AGI 的这么一个评测的合作伙伴 ,Arc 提到了一个主流的关于 AGI 的表述 , 能把大部分有价值的经济工作进行自动化的系统 。
那我们看到 , 如果以这个为标准 , 我们可以认为 o3 已经近乎的达到了 AGI,但很快随着我们把这个事情达到了 AGI, 我们会有更高更新的标准 。
这个很有趣啊 , 就是去定义 AGI 到底是一个什么样的定义 , 对吧 ? 之前其实大家一直没有达成过共识嘛 。
那在 Arc 的定义里面 , 就是说呃真正的智能是在现在啊 ,是做有经济价值的工作 , 那也依旧意味着它去安慰你的情感 , 或它去共情你的这种感受 , 这不在谁家的定义里面 。
对 , 然后于是的话呢 ,Arc 就给出了一个新的一个定义嘛 , 就是需要说哎 , 一个 AGI 它并不是指的你有多少技能 ,因为技能是可以通过训练而获得的 ,而是你有多会学习 。
一个婴儿我们天生的认为它是 AGI 啊 , 如果是按照我们就是最普世的想法 ,但是它什么技能都不会 , 它既不会编程 , 更不用说是编程到达了人类的 175 名 ,但是呢它很会学习 , 它可以从零的掌握语言 , 它可以去用筷子 , 它可以去给你娃娃打哭 , 它很会学习 。
那么我们对于 AGI 的定义是不是要从有多少技能变成它能够在之后自主的学会多少东西 ?
那我们这个聊了最值得关注的 o3 之后哈 , 我们来过一下啊 , 就这 12 天到底发布了什么 , 我们先快速的过一过 , 然后我们再来每一天稍微展开一下, 和大家聊一聊 。
那第一天呢是满血版的 o1 上线 , 那这一天同时还有一个当时大家都这个呃争议非常大的 , 就 ChatGPT 发了一个 Pro 的会员 , 这个会员要卖 200 刀一年, 就有一个很大胆的定价 , 然后同时在第一天还发了 o1 Pro。
那到第二天呢是发了一个强化微调 RFT, 然后第三天是正式版的 Sora 终于发了呃 , 然后第四天是发了一个 Canvas 的功能 , 那这个对标的是 Claude 的 Artifacts, 这个更是一个交互上的变化 。
然后到了第五天 , 第五天很水 , 它几乎是一个给苹果站台的 PR, 只是在宣布苹果全系接入了 GPT。 到第六天 , 嗯 , 这是这个临近圣诞节 , 呃发了 4o 的实时视频通话和视频理解 , 那可以理解这个实时的视频流 ,也可以理解你分享过去的屏幕 , 同时根据视频流和屏幕的内容来去实时的问答 。
然后同时因为圣诞节快到了嘛 , 你可以给圣诞老人打电话 。 然后到了第七天发布了呃一个叫项目的功能 , 那这个其实也是 Claude 早就有的 Projects 的功能 。
然后第八天是 ChatGPT 的搜索全量的开放 , 甚至开放给了免费的用户 , 这里面也做了很多的呃细节体验的优化 , 比如说呃可以在浏览器的地址栏里面直接搜 ,也可以搜出视频呃 , 然后同时也把这个 4o 的实时语音接入了搜索 。
然后到了第九天呢是发了 o1 的 API, 嗯 , 然后这里面是一系列给开发者用的 API, 然后待会我们要请大聪明给大家展开讲讲 ,因为这是他认为和 o3 同一样同等值得关注的主要发布 。
然后到第十天是一个也有点小的一个有一点水的一个发布啊 , 就是你可以物理意义给 ChatGPT 打电话 ,而且它还做了一个 WhatsApp 的一个聊天机器人, 你可以在 WhatsApp 上和它聊天 。
然后到第十一天其实是他们之前就发布的东西 , 然后再拿出来讲了一遍 , 就是 ChatGPT 的桌面版啊 , 就它的桌面客户端的版本 , 可以读到别的应用上的内容 , 这样你就不用老去比如说给正在写的代码截个图 , 然后丢给 ChatGPT,而是可以直接让它啊就看看我的屏幕上在干嘛 , 然后直接提问 , 直接回答 。
然后这里是可以支持调 o1 模型 ,也可以支持用 4o 的实时语音功能来对话 。 然后十二天就是我们刚才聊到的这个王炸 , 它发了一个 o3, 这个是让全行业震惊的一个发布 。
o1与微调14:04
那我们现在再回来哈 , 从第一天开始 , 那我们还记得第一天发布的时候 , 呃其实很多人是很期待的 , 我相信这个藏师傅和大聪明你们当时应该也熬夜看了发布会吧 , 然后可不可以讲一讲当时看到 o1、o1 Pro 和这个 ChatGPT Pro 200 刀的会员的时候 , 呃你们有哪些感受 ?
哦 , 我知道感受一 ,他疯了吗 ?200 刀这已经远超出大家的正常的支付习惯了 , 真的会有大冤种去买吗 ?
啊 , 我买了 , 然后的话用了这么一个 o1 Pro, 然后发现哎 , 真香 。 我经常会和那个 AI 或者说 ChatGPT 一块去思考一些东西 , 然后比如说是项目怎么做呀 , 事情怎么规划呀 , 然后我在和 4o 说的时候 , 基本上它就是一个我给它说一个东西 , 它就会顺着我的话把我东西补全 ,有时候补的还乱七八糟的 , 嗯 , 我要给它纠正很多次 。
但是我是用了这个 o1 Pro 的时候 , 它能它经常呢就是在一次对话中把我所需要做的事拆分的非常清楚 , 那这样的话就能够省了我一小时的反复给它修订的时间 , 这个事情让我觉得太香了 , 太值了 。
我看到还有一个说法 , 就是 200 刀这个 Pro 会员之所以值 ,是因为呃它有点像是一个无限和你可以对话的 7×24 小时随时在线的 HUR, 就之前那个科幻电影啊 ,因为你可以实时的这个开始无限的和 4o 的实时语音这个对话了 。
对 , 然后呃藏师傅当时看到第一天的发布会之后有去试用吗 ? 有一些什么样的感受 ?
第一天其实我没有买 200 刀会员 , 对 , 就是当时我觉得确实是冤种才会买 , 然后那个 o1 Pro 当时看他们那个测试 ,因为他们用的是很多推理的方式 , 那可能我或者是普通用户 , 这我觉得这也是他们宣发的一个问题 , 就是他们用的一些案例 , 当然你要去测试智能 , 你用推理 , 你去做数学做物理是可以的 ,但是你需要掺插一些说可能真正的普通用户会用到
的一些案例 , 就是来体验它有多强 。他们缺失了这些功能 , 导致我的感知是好 , 你的物理和数学很强 , 好 , 对我没有用啊 ,因为我并不知道它对于真正的开放开放域的智能 , 它到底有多少提升 。
对 ,但是后来是因为啊冤种 Sora, 我是因为 Sora 那是我真是终于真冤种啊 , 我用 Sora 开的啊 , 开了以后去用了一下 Pro, 我发现它对于开放域的一些问题 , 就刚才大聪明说的 , 我去讨论一些问题的时候 , 会给出很全面而且很新颖的观点和呃很具结构性的一个问的回答 , 所以这个确实是挺值的 。
哎 , 可以讲一个具体的例子吗 ? 就是你用 o1 Pro 做了什么 ?
我昨天第一次试 , 我就想突然写想写一个我跟 AI 的一个一年的总结 ,因为我我想说的事情特别多嘛 , 然后我就想让它给出一个大纲 , 或者给出一些我可以写的方向 。
呃它给出了很值得参考的方向 , 就是我们知道我们写东西的时候会有个问题 , 就是你去找 Sora 或者 Claude, 它会就是刚才大聪明说的 , 它说一些你说过的事情 , 或者是很显而易见的事情 , 或者跟你本身的职业 , 或者跟你的路径完全无关的事情 ,但是 o1 Pro 不会 ,o1 Pro 真的给出了非常有建设性的意见 , 就是你完全可以按照它这个大纲去一步
把它写完 。 对 , 这个这个很厉害 , 就是这但这个是很感性的一个一个结果 , 就你不能通过这样去描述它 , 真的很厉害 , 你只能通过你自己看到它的时候 , 你觉得这个是你要的东西 。
啊 , 这里我再补充一个信息 , 刚才提到了如果你是它的 Pro 会员 , 你是可以无限的使用它的高级语音模式的 , 然后高级语音模式如果你用 API 的调用的方式 , 平均每小时的消耗是 50 美金 。
假如说你特别喜欢和 AI 聊天 , 你只要跟它聊够了 4 个小时, 这 200 刀你就赚回来了 。
哎 , 说实话 , 我真的和 4o 聊会有一种和真人聊的感觉 。
4o 的问题我觉得就是一个是它响应确实还是不够快 ,而且就是贵吧 , 然后我手机一开的时候 , 我手机就会巨烫 , 可能是它这个实现方式有问题 。
这个就说回来那个谷歌那个 Gemini 了 ,Gemini 那个我就完全没有这个负担 , 就是我我跟我跟 4o 聊的时候会有负担 , 一个它很贵 , 一个是它看起来很做的很重 ,但是我我跟 Gemini 聊的时候就没有这种负担 。
虽然 Gemini 现在只会说英语 ,但是我就就很很随便的聊 ,而且它那个响应比 OpenAI 还要快很多 。 对 , 可能是模型小吧 。
对 , 这个也是我用用那个我用我用我用 Gemini 觉得我它很强的一个地方 。
Sora18:48
嗯 , 哎 ,其实这一次就在这 12 天期间哈 ,Gemini 也发了 2.0 嘛 , 然后它受到的 PR 的关注肯定是不如 OpenAI 嗯 ,但是我感觉它的呃口碑是非常好的 。
嗯 , 我们其实待会啊也会和大家再讲一讲我们几个人用 Gemini 2.0 的一些体验 。 好 , 那我们到第二天啊 , 第二天发布的是基于 o1 的一个强化微调叫 RFT, 这个可不可以请你们来给大家介绍一下呃 RFT 是什么 ?
一个 AI, 比如说是 GPT-4o, 你希望它每次说话的时候非常的简明精炼 ,但它自己不行嘛 , 你就要对它进行一个微调 , 然后呢是给它非常多的一个样本 , 让它在之前的基础上进行学习 。
那么 o1 其实它本身并不能够完全的归入我们传统的大模型范畴 , 它其实是一个大模型结合 agent 的一个聚合物吧 , 只不过它把 agent 这一块做到大模型里面 , 它可以自主的反思 。
那么对于传统意义上的这个微调就不再支持了 。 如果我希望这个 o1 它的生产 , 它的输出有一定的倾向性 , 无论是思考的方式还是输出的样式 ,有一定的倾向性 , 就需要在进行对它进行微调 。
于是就有了一个对于 o1 的一个微调方式 RFT, 它其实就是呃原来的 RFT 的一个变种 , 一个微调的变种 , 它是目标对象从原来的大模型变成了 o1 这种 agent 形式的大模型 。
明白 , 嗯 , 所以这一个发布其实当天也是没有引起特别多的关注 ,是因为其实它带给这个 C 端用户的体验不是那么直接 。
不仅是对 C 端用户不直接吧 , 哪怕是对 B 端呀或者是开发者端呀 ,因为 o1 太贵了 , 就是正常情况下不会把它放到模型成本打过来 ,而微调的成本还是会比直接使用 o1 还要再加上一层 。
所以说做项目的时候暂时还是不会去考虑的 , 对于绝大多数的这一个项目来说 。 那但另外一个层面 , 我们知道模型会不断的降价 , 然后如果它的成本降到一个比较呃亲民的时候 , 然后同时你还有类似的需求 , 我相信一不少的开发者也会对它进行微调的 。
OK, 这是第二天哈 , 然后到了第三天 , 第三天是在呃发布会开前面的倒数 12 个小时就已经开始有谣言满天飞 , 说今天晚上要正式的发 Sora, 所以那天也是蛮多人熬夜在看的 。
呃然后 Sora 是发了 ,但是发出来之后呢 , 呃就好像这个毁誉参半 , 甚至慢慢的对它的吐槽还越来越多 。
呃然后这个可不可以请这个藏师傅专门说一下 ,因为你刚才有提到一开始发这个 o1 的时候 , 呃就满血版 o1 和 o1 Pro 的时候你是没有充 200 刀会员的 ,但 Sora 让你充了会员 。
可不可以讲一讲你充会员之后用它的一些体验 ?
它是这样的 , 就是它如果你是 Plus 20 美元用户的话 , 你只能生成最高 720p 的视频 ,而且的话你只能生成十几个 , 就是十几个就结束了 。
那如果你要拿它做片子 , 你必须要充 200 美元 , 所以就买了 。 买了以后呢 , 试了一下它的它有两方面的 , 一个是它的功能还是挺惊喜的 , 就是比如说在呃故事版这个 , 就是它的故事版 , 就是你可以去呃连续的出多个视频 , 然后它会用一些呃转场做 , 可能是手尾帧 , 可能是其他方式做 , 把这个视频连起来做成帮你做成一个一整段完整的视频 。
这个其实是在交互上和在那个功能性上其实做的非常好的 。 对 , 接下来我们要说到模型了 , 模型本身的话 , 我们就说看一个模型的底子 , 你是看那个文生文生文生视频嘛 。
那么文生视频的话 , 它的整个的质量就是说好的会很好 ,但是好的很有限 , 它可能比现在最好的视频模型好个零点几这个程度 。
对 , 就是它它达到了一流水准 , 然后视频模型训练和大语言模型的训练其实是一样的嘛 , 就它也是需要呃先有个文生视频的模型 , 然后再基于图去做那个图生视频的这个微调 。
那么在图生视频上, 你发现它的微调是完全不足的 , 它可能是一个很仓促的结果 。 对 , 就是它但凡说好好训了 , 它就不会成那样 。
就是图生视频起码我们要的要求是你可以动 , 对吧 , 我不管你动的好还是动的坏 , 你可以动 。 但是 Sora 图生视频 90% 你伸进去一张图 , 输出的就是一张图 。
对 , 你花了啊可能是几块钱的积分 , 把它从一张图等了几分钟变成了一变成了一张图 。 对 , 这个是很恼火的 , 我觉得这个是非常恶劣的一种商业行为 。
对 , 就是它是诈骗 。 对 , 它不是说你你服务的好不好 , 或者模型的好坏 , 这是诈骗 。 就这功能你宣传的完全不可用 。
对 , 然后你卖的又那么贵 。
哇 , 这是一个非常严重的批评 。
哎 , 对 , 这是一个沉浸问题 , 就是你你用这个诱导我去开花一个 1,500 人民币的一个一个月的会员 , 然后这功能其实是完全不可用的 。
哎 , 大聪明呢 , 你有什么想要补充的吗 ?
呃 ,因为我本身不是专业的视频作者 ,但这个里面对我来讲 , 这个无限循环以及这个故事版功能 , 对我来讲还是蛮惊喜的 。
说到 Sora 这一次发布 , 我觉得还有一个值得注意的细节啊 , 就是前几天我们和 Monica 的呃 Founder 小红录播客的时候 , 她提到呃这一次 Sora 是没有发 API 的 , 这是 OpenAI 历史上少有的一个情况 。
这其实背后有说明 , 就是在今年做应用呃对 OpenAI 来讲也变得好像更重要了 。
对 , 我觉得核心还是要拿数据吧 , 就是呃一个是拿数据 , 一个提升提高市场占有率 , 占住这个人们的认知嘛 。
对 , 所以对于对于对于 OpenAI 哎哎或者其他公司来说 , 做应用一直是最重要的 ,因为我们都都知道这个东西做你发 API, 你卖 token 是没有壁垒或者是没有无法规模效应的 , 一定要做做成产品 , 所以用一些功能把用户留在这去把扩大用户规模 , 让它离不开你这个产品才行 。
Canvas25:15
说到我们找这个大模型的厂商需要去做应用 , 做一些功能 , 然后来提高用户的粘性 , 那正好就说到第四天的发布了啊 ,因为第四天发布的就是一个这样的功能 , 呃是叫 Canvas, 当然这个也不新 , 嗯 ,Claude 在半年前就已经有了 Artifact, 然后当时 Artifact 发布的时候还是呃得到了大量的好评 , 确实对生产效率的提升也很有帮助 。
可以请二位介绍一下 Canvas 是什么 ,以及如果可以的话再介绍一下它和 Artifact 的区别 。
我来说一下吧 , 这其实如果先说 Artifact, 那这个东西的话 , 你可以理解为当大模型生产出一个比如说呃 HTML, 然后呢或者是再加点 JS 这样的一个内容之后, 它是一个前端页面 ,在 Claude 里面可以把这个页面直接渲染出来 , 你可以看它的页面好不好 , 然后同时的话 , 如果它生产是一个 Markdown 啊 , 我也可以拿浏览器把它渲染出来 ,也可以实时去看 , 然后看最终的效果 。
这是一个非常有利于我看这个前端代码的一个东西 。 而 ChatGPT 呢 , 它的这一个呃 Canvas 其实最早应该是脱胎于它有一个叫做代码编译器的功能 , 就是你让它你给我写一个极兔同笼算法 , 它可能会把这个代码拿代码框展示给你 , 还可以把这个代码运算给你 。
它后面呢是跑了一个啊相当于一个 Python 服务器 , 那在之后那除了能够跑代码之外, 它还可以在上面给你展示各种各样的文字 , 你可以对这个文字进行一些修改 。
哎 ,其实我有看到一个网上很有趣的用法啊 , 就是有一个人他请这个呃 ChatGPT 给他写的一篇论文去做批注 , 然后他还请对方模仿一个哲学系教授的风格来去批注 , 最后在 Canvas 里面展现出来的就很像是一个在 Word 里面看到那样的批注啊 , 就是首先有一屏是它原来的文章 , 然后批注呢又是在侧边栏再单独出来的 , 然后还会指向到底批注的是文章中的哪
个部分 。 呃这个我看到之后也觉得还蛮惊喜的 , 这个和原来直接请大模型帮我改写我的文章啊 , 那个感觉又进步了 , 又升级了 。
从交互层面 ,其实这段时间 OpenAI 私底下是发了好多的货 ,但是它没有开发布会 ,也没有用任何的新闻方式去露出 , 这点其实蛮有趣的 。
你包括你刚才说的这个功能 , 我一篇文章放进去 , 然后让它对我进行批注展示出来 , 这个功能是来自于 OpenAI 前一段时间 , 上个月吧 , 它偷偷的放出来的一个叫做 predicted 的 API, 或者叫做 predicted 的一个模式 , 要预测性输出就是什么呢 , 我把一篇内容给它 , 然后呢我告诉它怎么改 , 它就可以快速的把这篇文章要改的地方 , 然后或者是呃需要批量去盯正的地方给
它标识出来 ,并且修改出来 。 这是一个它上线了但一直没有发布的功能 。 那我相信在这个 Canvas 里面它使用的 , 我觉得呃猜的应该就是这个功能 。
对 , 这个其实还真的是挺有用的 。 我之前一直在用 Notion AI 嘛 , 就是会在呃 Notion 里面请它直接帮我改东西 , 嗯 ,但它也就是直接改了就改了 , 它不会是像比如说你原来请一个呃同事或请一位律师帮你改一个文件的时候 , 它会保留那个修订记录 , 呃然后你自己去决定我要不要接受这一点 , 拒绝下一点 。
对 , 那现在其实 OpenAI 也可以做到这一点了 。
然后这里面它还有一个很有趣的点 , 就是因为它只是修订 , 它并不是重写 , 它可以快速的去处理一长篇的内容 ,并且保持你的主体结构不变 。
这个事除了在修订文章之外 ,在修改代码上面也是非常的有用 。 很多时候你在让它修改一个代码的时候 ,因为你代码会和其他的啊老代码做交互 , 一旦你动了结构 ,有时候会非常非常的麻烦 。
那如果它只是修改前面部分参数 ,并且是呃这个参数之间如果有关联 , 它会把这个关联一块修改掉 , 就会非常的实用 。
这一块也是呃这个预测性输出的一个用法 。
藏师傅有没有什么要补充的 ?
看到那个就是那个做就是负责 Canvas 那个功能的一个人 ,在今年 10 月 4 号发的时候 ,他自己他写过一些内容 , 呃就说他怎么思考这个功能的 。
对 ,Canvas 的核心区别和 Artifact 有两个点 。Artifact 的就是它的一个目标 , 就是尽量不让你去想什么时候该触发 , 什么时候不该触发 , 什么时候该用 , 什么不该用 。
它会让 AI 决定去呃给你 , 它是一个展示性的方案 , 就是说我用一个更友好的方式去展示一些不好在对话中展示的内容 。
这个是核心 , 就比如说文案也是 , 长文本也是 , 然后那个外部外部渲染也是 。 但是呢 ,Canvas 那个作者吧 ,他的想法是他想打造 AGI 的一个终极界面 ,他想象中的 AGI 终极界面是一个空白画布 , 就是你怎么样去调整它都行 。
对 , 然后它核心的话是想作为一个创作伙伴 , 就帮你去创作或者给你指导 。 这个就解释了为什么就是刚才说的那个批注那功能 , 这个就完美的符合一个创作伙伴应该做的事情 。
就是我们想象 , 就刚才那个呃元成说过 , 就是我们想象中的同事去在工作的时候是跟你怎么协作的 ,他就是会评论你的东西 , 好 , 你可以就是给你建议 , 你可以选择改 ,也可以选择不改 。
然后在代码里也是 , 就是在代码 review 的时候也会 , 我会去给你这个东西去做些标注或者做一些那个注释 , 你可以选择改 ,也可以选择不改 。
对 , 它是一个以创作伙伴的形式去做的一个功能 。 所以它俩本质上其实是不太一样的 , 所以它就衍生出来这么多不一样的功能 。
就比如说 Canvas 其实很重 , 对吧 , 它有很多功能 ,其实就是在模拟一个创作伙伴该对你的内容做的一些事情 。
那 Artifact 其实就是个很简单的愿景 , 就是说把对话内容里不好展示的内容用一个更好更适合 , 对吧 , 比如长文本之类的展示形式给你展示出来 。
对 , 我觉得这个是核心的两个根本性不一样 , 导致它俩的这个功能设计上不太一样的东西地方 。
嗯 。
我觉得这个其实还是产品哲学的不同啊 。 然后说到这里 ,其实我会感觉 2025 年非常值得期待的一个点 , 就是啊在 Chatbot 的这种传统交互之外, 会大家呃发现有什么新的交互 。
这在很多地方都已经开始在萌芽了 ,不只是在这个 AI Coding 啊 , 像 Cursor, 然后也不只是 Devin 带来的 Agent 这样的模式 , 然后也包括看到的 Canvas 呃 , 甚至还包括这个 Wycraft 的呃就是文生图和图生图 ,也包括像 Wycraft 的这个无限白板这样的去做图片编辑的模式 。
我觉得这很多吧 , 就是这个感觉都有点数不过来 , 就各种各样的这种产品创新在大量的发生 。
这个还蛮值得期待的 。 也是上一周和 Monica 的小红在录播客的时候 , 她有提到在 2024 年有点 boring,因为感觉还是是呃 ChatGPT 3.0 发布的 Chatbot 这样的和 AI 交互形式的线性外推 。
但是到 2025 年, 尤其值得期待的一个特别大的原因 , 就是各种各样和 AI 交互的呃这种用户体验交互方式已经在雨后春笋的发生了 。
然后到第五天啊 , 第五天就是给苹果站台 , 这感觉像一个公关发布会一样 , 就是发写了这个念了一篇 PR 文章啊 , 告诉大家你们可以在苹果里面用到 ChatGPT 了 , 这个没什么特别好讲的 。
实时视频33:08
那我们就到第六天吧 , 第六天是 4o 的这个实时视频通话和视频理解 , 然后包括和圣诞老人的通话啊 , 这个其实是在社交媒体上有一点呃小水花的 ,因为很多博主就会用 ChatGPT 去和圣诞老人聊天开玩笑 。
那你们在第六天看到这样的发布之后, 有一些什么样当时的呃感受或者想法吗 ?
高级实时语音 , 这个是一个很极极致的一个对让人感觉到这个东西存在智能的一个方式 。 对 , 就是可能你说 o1 或者 o3, 普通用户根本不理解这个东西有什么意义 , 对吧 ,不就是分吗 , 对吧 ,而且我也用不着 , 对吧 。
但是对于实时语音通话来说 , 普通用户会觉得这个东西真的好厉害 ,因为它它就是模拟了一个科幻电影中存在的一个场景 。
对 , 所以就看到你只要在比如说你在小红书或者在呃呃抖音上发你用这个实时语音做的一些事情 , 就比如说很多人看有些研究生拿它去让它认识这个化学药剂 , 让它去指导自己怎么去配那个实验 。
对 , 然后或者说做这种跟跟 GPT 谈恋爱这种 , 对 ,其实就是很很戳人, 很容易引起普通用户的共鸣 。
对 , 包括练口语 , 然后包括练习模拟面试 , 就都变得很有用 。 然后我自己也试了一下啊 ,因为同期还有 Gemini 2.0 也在发一样的东西啊 , 就可以打开摄像头 , 你直接举一个东西问它这是啥 , 这个识别率还是蛮准的 。
我甚至指着我墙上的一张海报问它这是一个电影节的海报 , 你告诉我这是哪一年在什么电影节的海报 。
对 , 它这个也都可以给出它的猜测 。
我补充点信息 ,在这一天的发布中, 它的两个主要的卖点 , 一个呢是可以视频通话了 , 一个是可以共享屏幕了 ,但其实它话说到这好像就没说 。
咦 , 我们先说它视频通话吧 。 嗯 , 如果我们去翻 OpenAI 在过去一年中它的一个无论是对外投资还是对外合作 , 你会发现这家公司去涉及了很多线下和硬件相关的场景 。
如果 ChatGPT 能够很丝滑的 , 比如说教你干什么 , 教你去煮咖啡 , 教你去做化学实验 , 那么这个功能也可以迁移到它接下来或者之前投资的那些硬件产品当中 。
那这个就变成一个相对来讲会王炸很多的东西了 。 而我们会发现这个里面它的技能点也好 ,他们的技术路线也好是一模一样的 。
我们看到这个化学实验啊 , 你拿摄像头去怼着一个化学设备 , 那么如果这个摄像头这个 ChatGPT 是内置在这个化学仪器里面的呢 ?
如果这个东西再和一些机械臂结合的呢 ? 那这个东西就可能会变成自动化的了 。 这是关于这个实时实时语音的这一块 , 视频电话这一块 。
第二个的话呢是共享屏幕 , 大家可能会记得在今啊去年吧 , 微软去发布了一个叫做 Copilot 的品牌 ,其实那一个很有趣的点是你和你和你的电脑可以相互的对话 , 然后你的电脑可以自主的去干一些活 。
那在这里面就有一个很有趣的事 , 你需要把这个信息 , 把页面上的信息去传给你的这个助手 。 这个是这一个功能 , 据传可能是被放弃或者搁浅了 ,但是你会看到在呃 ChatGPT 的这一个发布里面 , 它可以去监控其他的应用的一些信息 。
我并不知道它的监控信息到达了一个怎样的一个程度 ,但有可能就就是和苹果的一个合作 , 可以拿到很深层的信息 。
那么在移动设备上, 这个东西就变成了一个额外的一个外挂 。 比如说我是炉石玩家啊 , 那我可能边打炉石我就边问它 , 那这以后这张牌怎么出 。
哎 , 我们其实待会也会聊到哈 , 它在后面还有发一个客户端的一个功能嘛 , 大概是第 11 天的时候也是类似的 , 就它可以这个读屏 , 可以理解你屏幕上不管是编程呃还是是你在玩什么游戏 , 甚至是你在和别人聊天 , 它也可以给你一些就如何回复的指导 , 理论上都是可以实现的 。
这个做法其实呃说白了是绝了很多的 Copilot 产品的路了 。
项目功能37:34
啊 , 这就是让大家想到这个经典的 AI 创业的困境吧 , 就是你做的东西会因为 OpenAI 这样的大模型公司的发布呃而感到开心兴奋 ,而还是你会感到担心和绝望 。
呃 OK, 好 , 那我们再看第七天啊 , 第七天是发布了这个项目的功能 , 就是你可以把呃一个项目里面的各种各样的文件全部丢到一个文件夹里面 , 然后再去和这个文件夹进行对话 , 这样这个模型就可以有一个知识库 ,有一个上下文 , 可以更好的来给你一些回复 。
那这个其实也是 Claude 在半年前就有的功能啊 ,OpenAI 现在才加上 。 然后呃这个做出来之后, 二位有看到一些有趣的用法吗 ?
具体的预训练或者说模型训练的细节我可能不太知道 ,但是其实这个功能和刚才我说的 , 就刚才说的 Artifact 的功能就有一个特点 , 就是说我们在推理的过程中, 或者说我们在模型训练的过程中, 你要对语料进行分析和归类 , 然后你要去识别哪些是高质量的语料 , 然后再把拿拿再把这些合成数据拿去再训练嘛 。
那么归类就有个核心的问题 , 就是很多内容都是开放性的 , 你其实不太好去验证它语言模型输出的内容的对话的价值 。
你要想它拿想拿去再训练的话 , 可能会有一些问题 。 那么这两个功能就从某种程度上解决了这个问题 , 比如说 Project, 那么我放在 Project 里的所有文件 ,以及我跟它的所有对话 , 基本上应该都是一个主题的 。
就如果对话轮数多的话 , 我们通过一些其他的数据筛选方式其实能筛出来 。 那么这就解决了一个问题 , 就是优质的对话的一个归类 , 同时还附带有一些现实的可能非合成数据的一些语料 。
对 , 这个其实对模型训练或者对数据收集是有很有帮助的 。Artifact 也是一样 , 就是说嗯那个 Claude 的 Artifact 其实带分享的 , 那么我只需要去分析一下分享的数量 , 就分享的能点击的数量 , 我就能判断一个这个大语言模型生成代码的基本上吧 , 它是正相关的 , 它跟代代码质量或者说嗯那个对话的质量是正相关的 。
那么在代码这一层面 , 或者说长文本这一层面 , 我就能去把它筛出来去作为一个语料 , 这样就减少了一个筛选的成本 。
对于模型训练本身或者说数据本身收集是有非常好的正向的作用的 。 就是可能我们会在很多其他的优秀的 AI 项目中, 以后都会看到越来越多这种设计 。
我看到这个官方其实有一个不错的例子啊 , 就是把一个求职者的他的各种各样的简历啊 ,他过去他的这社交媒体的所有的这个链接啊 , 然后等等啊 , 然后都放到了一个项目里面 , 这样就可以让模型更好的了解你是谁 , 然后同时应该就可以这个请 OpenAI 来给你一些职业上的建议 , 或者和你做一些模拟的面试 。
啊 , 我想讲一个去年差不多这时候的事 ,在去年年底的时候 ,OpenAI 的是更改了一版它的隐私协议 。在这版隐私协议里面 , 它提到了作为 ChatGPT 的用户啊 , 你的任何时候和 OpenAI 的信息的交互 , 无论是在 ChatGPT 里面还是和 ChatGPT 的社交媒体的交互 , 这些数据都可以被 OpenAI 拿走当成训练语料 。
当时的话随之发布的是 GPTs, 就是当时我们说的 OpenAI 的那个 agent。 那在这个里面的话 , 像刚才藏藏师傅所说的 , 一方面你是更可以更方便的去使用 ChatGPT 了 , 另外一方面的话 , 你也为了这一个便捷性帮 OpenAI 做了数据标注 。
这是一个非常聪明且呃不会太过于让大家反感的事 。
对 , 我觉得这里面其实也是大家都在追求数据飞轮 , 对吧 ,在一个工具应用没有壁垒的情况下, 它也形成不了社交飞轮的情况下, 怎么能够增加用户的粘性 。
好 , 那我们进到第八天啊 , 第八天是 ChatGPT 的搜索全量开放 , 然后搜索的界面和搜索的体验都有了各种的优化 。
然后这个二位呃有体验下来什么样的感受呀 ?
我对它没有什么感知 , 就是它的整个的搜索质量和这个结果质量 ,在一众 AI 搜索产品里 ,但凡有的用我都不会用它去搜啊 , 我哪怕搜自己用谷歌 。
API更新41:52
那我们就跳过第八天 , 进到第九天 。 呃第九天呢是发了开发者用的各种 API, 然后这个也是大聪明在一开始回答第一个问题啊 , 就这 12 天有哪些值得关注的重点发布里面特别提到的一点 。
那直接请大聪明来给我们介绍一下第九天发布了一些什么 ,以及你为什么认为它那么重要 。
总来讲的话呢 ,是从官方的说明里面啊 , 它发它发布了 o1 的正式版的 API, 之前是预览版 , 然后呢它的 realtime 的 API 就是我们的高级的语言交互的 API 啊 ,是调价了并且是有 SDK。
那之前的话呢 , 你必须得自己去呃写这个兼容 , 现在已经有直接的那个接口可以去调用了 。 第三个的话呢 ,是它新增了一种新的微调方式 , 非常有趣 , 叫做偏好微调 。
稍等我再细讲 , 我们来说下这个事为什么重要啊 。 我们都说 2023 年我们当时是有了 agent, 然后今年蓬勃 , 这生产明年 agent 需要爆发啊 , 我们会有慢慢的会让感知也包括是 code 的成长 。
那在这些 agent 成长的背后, 有一个非常重要的技术的革新 , 这个革新叫做结构化输出 。 什么叫结构化输出呢 ?
比如说我希望让我家灯把它那个调一半的亮度 , 我给灯出来的话 , 这个灯不会理我的 , 它只能接受什么信息呢 ?
就比如说像 JSON 这种啊 , 指定某某灯灯 , 然后呢是第 19 号亮度 50% 这么一个结构化信息 。 那么 AI 可以充当这个翻译器 。在去年的时候 ,在我们 GPT-4 那个版本里面吧 , 叫做 0613 那个版本里面 , 呃那时候呢 , 官方还没有一个比较标准的一个结构化输出的方法 ,他们有一个叫做 Function Call 啊 ,不过也不是很稳定 。
呃如果它只是通过我们所谓的呃 Prompt 技巧的话 , 我完成这一个结构化输出 , 我让灯你给我从 70% 到到 50%, 它的成功率是
35.9%。 很多时候你发现哎 , 它好像也 work 了 , 那只不过是 AI 在后面多试了几次 , 你总是能试对的嘛 , 一次不成再试一次 。
而直到今年 4 月份的时候 , 这一个成功率变成了 75.3%。 而到了今年的这一个 5 月份的时候 , 这一个成功率变成了 86.4%。
而在最近的这个版本里面 ,也就是 8 月 6 号更新的时候 , 它带来了一个叫做结构化输出的这么一个标准接口 。在严格模式下, 这一个接口的输出质量能够达到 100%, 就是 100% 成功 , 这个事情就很牛逼了 。
所以说我们看到 8 月 8 月 6 号之后, 我们的很多的 agent 工具 , 那比如说是 Cursor 的 agent 版本啊 , 或者乱七八糟其他的版本 , 它才从雨后春笋一样的出现 ,因为它的成功率提高了 。
我们再回到我们上面所说的这几个东西 , 第一是 o1,o1 它是一个非常强大且牛逼的思考工具 。 如果我们只是拿它去写文章 , 那无所谓 。
如果你希望让 o1 的这一个生产出来的内容能够作用于你的日常的工作 , 无论是你的机械控制啊 , 你的那个呃 IoT 的控制 , 你一定需要一个结构化输出 。在这一次发布之前 ,在第九天发布之前 ,o1 是不存在结构化输出的 , 或者说你需要自己再通过一些呃奇怪的 Prompt 技巧让它结构化输出 ,但这是不稳定的 。
而第九天的时候 , 它支持了标准的结构化输出 , 它支持了这个 Function Call, 那么它就可以 100% 的将这一个高质量的思考用于你的日常设备的这么一个控制 。
同时呢 ,在 realtime API 里面啊 , 这个它是新货的调价 ,而这里面有一个没说的是 realtime API, 它也支持了结构化输出 。
这个事情意味着什么呢 ?o1 它需要思考很久 , 思考半分钟 ,但很多时候我并不需要你思考这么久 。 我要关个灯 , 思考这么久干嘛呀 ?
我希望我这边说了 , 你那边就关灯了 。 那么 realtime API 我们实测的话 , 它的延迟是低于 300 毫秒的 ,也就是说我和 AI 说了这件事 0.3 秒以内 , 我的灯就关了 。
它里面也支持了这个结构化输出 , 这是第一点变化 。 第二点变化的话呢 ,是 realtime API 每每小时的消耗是 50 美金 。50 美金意味着什么呢 ?
如果要把产品化的话 , 我必须要找到一个每小时能帮我赚 200 美金以上的场景 。 我的天呐 , 每小时赚 200 美金以上的一个线上场景 ,而且只能通过语音聊天 , 反正我是不太能想到这个场景在哪 。
而这个里面的话呢 ,在 realtime API 里面 , 它新的去蒸馏出来了一个 mini 的模型 , 它的成本在每小时 5 美金 。
虽然每小时 20 美金的场景 , 每小时 200 美金的场景我找不到 ,但每小时 20 美金的场景是有的 。 比如说给海外的这些学生去辅导功课 , 去接待他们的这一个电话的一个 on call, 那也就是也就是因为此 ,realtime 的 API 具备了可商业实践的可能性 。
第三的话呢 , 它发布了这么一个呃 SDK, 嗯 ,其实并不是所有的那个同学都很擅长去玩语音的呃那一套模型的 ,而且尤其是呃在这一套模在这一套模型里面 , 它是用的那个 WebSocket, 屏幕上很多人都很熟的 。
那在新的发布了 SDK 之后, 你可以直接的去调它的这么一个模型了 ,并且这里面也支持了可能很多人熟悉的这个呃 WebRTC 的这么一套 。
这使得 realtime 的 API 能够被很多人去商用了 。 那这个里面隐藏着一件事 , 它没说以前我们叫做端到端的模型 , 语音到语音 , 中间不过文字 。
而这一次的更新 , 它带来了一个叫做多端到多端的模型 。 怎么理解呢 ? 它的输入包括你的文件信息 、 文字信息 、 语音信息 、 视频的这个多模态的信息 , 你可以同时输入给它 ,而同时输出的包括文字 , 包括 Function Call, 包括语音 ,并且这里面有一个很好玩的事 , 它输出的文字和它输出的语音是有关联 ,但不一定一样的 。
我再重复一遍 , 它输出的这一个信息 , 它的文字信息和它的语音信息是非常的有关联性 ,但不一定一样的 。
也就是说 , 它并不是一个呃顺序的顺序的一个构建 ,而是同步的构建 。 而这里面的话 , 还可以同时的去输出它的这一个 Function Call 的信息 。
这使得在一些教学场景 , 比如说我现在问这一个 AI 一个问题啊 , 你给我讲一下为什么那个三个和尚为水喝 , 它可以同时输出三件事 。
第一 , 它可以把三个和尚没水喝的这个动画画出来 , 然后有一个鼠标指着某个和尚跟我说这是大和尚 ,他不想挑水 , 想让小和尚挑 。
再次把鼠标移到小和尚处说这是小和尚 ,他不想挑水 , 想让大和尚挑 。 然后下面同时的去说这个故事的背景 , 使得这样的一种程序构建成为可能 。
而在第九天之前 , 这一套东西是不可能出现的 。 这些东西的话呢 ,其实它并没有在发布上说 ,但是你如果你去仔细的去读它的文档的话 , 你会发现这才是第九天发布的核心 。
在我们回顾这 12 天的内容的时候哈 ,也有一个提醒 , 就是大家知道 OpenAI 很会做营销 , 所以呢 , 这 12 天的内容很多是为营销而发布的 。
它不一定代表着最主要的技术进步和最关键的实力 。 然后另一方面呢 , 就是 OpenAI 也在一个激烈竞争的环境里面 , 所以它的发布有一些呃可能也不是它最牛逼的东西 , 它会做一些隐藏 。
它甚至通过这 12 天的发布呃来去影响竞争对手的一些思考和节奏吧 。 对 , 所以大家除了看这 12 天的发布内容本身之外 ,也可以多去看一看他们背后的一些呃没有发布的东西 , 说不定也能挖掘出一些有价值的一些洞察出来 。
而另外的一个发布的话呢 , 叫做偏好微调 。 什么叫偏好微调呢 ? 就是我可以让 AI 去输出什么 , 我喜欢吃什么 , 让它让它去写 。
第二种还是对 o1 的这个强化不说了 。 而偏好微调是是可以一个更进阶的 , 我不仅可以告诉 AI 我喜欢什么 ,也可以告诉 AI 我不喜欢什么 。
对 , 它是有点像是黑名单和白名单 , 我就不需要去给它挨个的在提示词里面去说哎 , 你不能这样 , 你不能啰里八嗦的 , 你不能够去说各种冗余的话 , 你不能够使用怎样的语言 , 我直接把它微调进去就行了 。
这样的话使它的稳定性能够获得一个提升 。 然后这几个事情同时作用下来 , 它其实奠定了接下来一年我们认为的那一套 agent 爆发的可能性 。
对 , 所以其实在 2025 年啊 , 呃我觉得还是蛮值得期待的 。在各行各业应该都能看到各种 agent 可以更好的落地了 。
之前很多落不了地 , 还是这个最后实现出来的就是效果不够好嘛 , 取代不了足够多的人工 。
那现在第九天虽然是一个低调的发布啊 ,但是被大聪明这么一解读 , 发现它的这个对整个应用生态呃的这个价值是很巨大的 。
这里面还有一个好玩的事 , 就是之前如果在没有这一个呃叫做结构化输出之前 ,在第九天我们所我们所有的和 AI 的交互 , 我们虽然我们看到所有的 agent 都是一个 Chatbot, 我们看到真的都是 Chatbot, 然后你可能说它干了很多事 ,但最终还是一个聊天方式给到你 。
但是如果它有了 Function Call, 再结合你的各种各样的 IoT 或者是各种各样的其他的东西 , 它使得和线下设备 , 使得和我们的商业世界可以非常紧密的关联 。
电话桌面52:38
第九天其实是非常硬核的一天哈 , 我们聊完第九天就到了第十天 。 第十天呢 , 又变成了这个非常呃好玩的一天 , 你可以这个给 ChatGPT 真的打电话了啊 , 它发布了一个 800 的电话 , 你可以和 ChatGPT 通话 ,但是呢 , 它又只这个咳嗽嗽的给了 15 分钟的时间 , 就感觉你这个稍微聊一聊 , 感受一下吧 , 感受一下未来是什么样子啊 ,但是时间有限 。
那我们跳到第 11 天 。 那第 11 天呢 ,其实发布的是一个已经上线有段时间的功能 ,并不是新功能 , 就是 ChatGPT 的桌面版可以读到别的应用的屏幕 , 然后根据它读到的屏幕的内容来给用户呃一些交互 。
这个我还没用 ,因为由于啊这个大陆用户用这个 ChatGPT 的问题 , 所以客户端一直尽量避免使用 。 对 ,但其实能看到说它因为我有个疑问 , 就是说我我没用啊 , 就是我不知道它是读的屏还是读的内容 。
就比如说如果说你选择的是一个比如说 Xcode 或者是 VSCode, 它读到的是这个哎 VSCode 窗口里的所有内容 , 还是说只是我滑到的屏幕这块内容 , 就这两个意义我觉得是不一样的 。
呃我理解它应该是可以读到内容的 , 它读的信息有三层 。 第一的话是截屏它肯定能读到的 , 第二的话呢 ,是它能够读到这个软件里面的内容 , 可以直接读 。
第三个的话呢 ,在读这个过程中, 它会额外的强调你划线或者是鼠标选中的地方 ,以及它有上下文了嘛 , 就你选中的这个部分的上下文它全部都知道了 。
对 , 然后你把鼠标悬浮在 ChatGPT 的 Mac 版的客户端的横幅上 ,在这个过程中你可以看到你选呃发送给 ChatGPT 是哪些东西 。
那就比如说我现在在写一个代码 , 然后同时我选中一部分 , 然后呢你它在思考过程中你把鼠标悬浮过去 , 你会看到它发送了啊 Xcode 的里面的某一个文件的信息 , 同时它也会重点的去标注哪些信息需要你去更用心的去读 , 这个在啊去查这一个呃访问请求的时候是可以查到的 。
最后啊就到了第 12 天 ,12 天也是我们开篇聊的第一部分 , 就 o3 的这个呃震撼发布 。 对 , 然后刚才已经聊过了 。
o3与花絮54:51
好 , 那我们 12 天的内容全部过完之后, 呃最值得期待的看上去有两个 , 一个是 o3 的发布 ,而 o3 现在其实大家还只能内测 , 呃可以去申请 ,但申请的概率应该不是很高 。
嗯 , 然后应该还有一个这个预测是明年 1 月份 ,maybe 大家可以用到一个缩水版的 o3 的 mini。 对 , 然后这是第一个重点值得关注的 。
第二个重点值得关注的呢 , 就是呃发布的一系列针对开发者的 API, 这个对于应用 , 对于 agent 的繁荣呃有可能大家想象不到的重大意义 。
嗯 , 然后各种这个工程师创业者可以特别去关注一下这里面带来的新的机会 。 好 , 然后我们现在这个聊了 12 天下来之后哈 , 想再问一下二位啊 , 就是在这次发布会上还有哪些值得一提的 , 或者说都没有被多数人注意到的一些小细节 , 你们能想到一些吗 ?
有两个挺好玩的事 。 第一个是呃它每一次发布会的时候 , 比如说第一天它桌子上会摆桌子上, 或者后面的架子上会摆一个玩偶 , 第二天会摆两个 , 然后最后一天会摆 12 个 , 就是挺有趣的一个恶趣味 。
然后第二的话呢 ,是它每一次发布的时候 , 它都会额外的去 lick 你一些信息 , 那就比如说是多少天之后 AGI 来临 ,但这些信息我觉得更像是留给你一个悬念 , 让你猜 。
好像是给这个媒体留一些标题 。
嗯 , 对 ,也就是说是 OpenAI 在这种去通过 lick 的方式去搞传播热点还是蛮有趣的 。 我就额外给你点信息 , 我也不告诉你这是什么 , 你自己去猜吧 。
我故意给你留出一点好像是内部文件的东西 。
我其实觉得有一个值得关注的小细节 , 就是华人在 OpenAI 内部的这种重要性 。 嗯 , 然后包括 o3 发布的时候 ,其实有一位新出场的一位华人叫任宏宇 , 之前是北大的校友 。
嗯 , 然后呃之前传闻说 o1 mini 啊 , 这里面有三位主要的华人在负责 。 嗯 , 除了任宏宇 , 还有 Kevin 和嘉慧 。
呃 , 张师傅你有什么嗯注意到的一些细节的补充吗 ?
华人这个事情确实是 , 就是这 12 天整个的 , 我觉得华人的比例甚至反倒比白人或者其他其他那个族裔的人的比例都要加起来都要高 。
Gemini57:07
这个确实是 OpenAI 现在一个非常大的变化 。 然后另外的话 , 昨天看到有一个人问个问题 , 就是为什么印度人在这里边 , 就是在 AI 领域没有那么多 。
好有趣的洞察 。
为什么没有印度人 ? 就是说不是说多少的 ,是没有 。
这前段时间我在新加坡那边参加 OpenAI 的线下活动 , 然后现场也是见了就是发布会上的那一个 Mark, 然后见了很多的 OpenAI 的呃新老朋友 。在这里面哈 , 我和一些人聊嘛 , 就提到一个问题 , 就是提到谁可能会是 OpenAI 的这么一个有力的竞争者 。
那我本来以为呢 ,是 Claude 啊 , 大家都国内都说啊 Claude 击败了 OpenAI, 然后我得到了一个不太是我这个答案的一个答案 。
我说什么呢 ,是谷歌啊 ,但这也不代表是 OpenAI 的观点啊 ,是谷歌 。 为什么呢 ? 那其实每首先两两点吧 , 第一 , 每一个模型都有它的生命周期 , 你能不能在模型的这个生命周期半年到一年之内把这个训练模型的成本收回来 , 这是一个非常大的问题 。
收回来成本什么的 ,有足够大量的客户来买单 。 我们看到了谷歌 , 它有自己的办公的一个全家桶 ,有自己的非常集成到位的这么一个生态环境 , 它是不愁卖的 。
而 Claude 它目前是绑定的亚马逊云 ,但亚马逊云它更多的是基于云的这个服务 ,而并不能够很快的去铺开 。
所以说 Claude 并不一定 , 如果是真的规模化起来 ,并不一定能够及时的收回成本 。 谷歌是可以的 ,OpenAI 应该也是可以的 。
哎 ,其实这里让我想到啊 , 这个确实不同的观点在这个时候会碰撞 。 就广密在最近一次呃被问到说七家巨头最看好谁的时候 ,他提到的是亚马逊 ,因为他认为这个 Anthropic 和亚马逊之间的合作是非常健康的 。
而在亚马逊的财报里面也能够看到这个 AI 带过去的收入是 100% 的增长 。 那呃基于 Anthropic 再加上 AWS 的云服务 , 它形成了一个这个协同作用 。
呃所以在未来这个亚马逊的实力也是非常可期的 。 嗯 ,因为我觉得整个聊下来感觉还是 2025 年会有挺多风云变幻的 , 会有很多让人感到兴奋的事情会发生的 。
因为我们这一期啊 ,是今年可能就最后一期了 , 然后也特别想问二位 , 嗯 ,在 2024 的年底 ,在回顾这一年, 你们印象最深刻的 AI 领域的一个技术突破或者产品突破呃是什么 ?
嗯 , 可不可以先请张师傅来回答这个问题 ?
回顾与展望1:00:05
我觉得最重要的两个就是 , 第一个是 Claude 3.5 的代码能力突破 ,也就是前端代码啊 , 第二个是 Sora 的发布和多模态输入输出一起的这样一个操作 。
感谢 OpenAI 当时在 Sora 发布的时候放了那么多比较详细的架构细节出来啊 , 让我们看到路径 , 才促成了后面一系列的 ,不管是图片模型 , 我们有 Flux 对吧 , 呃或者说我们有更多的这种海螺 、Ronghui、Kolin 这些视频模型 , 更好的视频模型让我们可以用 。
对 , 另外的话就是多模态输出的这个东西 , 让整个的视频音频或者更多模态内容生产在 agent 层面变成了一个可能 。
就这两个事情结合起来 , 我们明年能看到更多的自动化的内容生成 。AI 产品一直都受限于工具这个属性 , 无法构建壁垒 , 无法构建让更多的普通人用上 。
那么在明年可能这个东西会带来一个比较大的变化 , 就是说我们在内容生产上会让更多的普通人能感受到 、 享受到更多的 AI 生产的针对他自己的内容 。
对 ,Claude 的话就是另外一个 ,但第二个是代码能力 。 代码能力的话 , 尤其是前端代码能力的话 , 它是一个突破性的进展 。
就是比如说我们刚才说的 Cursor 或者说 DaVin, 为什么它嗯 10 月份之后 OK 了 , 一个就是刚才大聪明说的 agent, 就是结构化输出这样的能力 。
另外的话就是 Claude 3.5, 它的代码能力在呃比如说在 SSSWE 这种这种指标上真正变得可用了啊 , 才会变得 OK。
对 , 然后我一个感触是我的朋友 , 就是他是一个设计师 , 就是完全不懂开发的设计师 。 我那天跟他展示了一个就是 bolt.new 这个工具 ,他以前根本不敢碰这些开发这些东西 ,他觉得不可能学不会 。
但是那天我第二天我给他展示之后, 我再找他的时候 ,他给我展示了一个应用 ,他在学粤语 、 粤语 ,他用 bolt 写了一个普通话转粤语的工具 , 那工具做的很好 , 就是他把想到的一些都写上去了 , 然后他是完全真的完全没有开发机 ,他他都怕这个东西 。
就是就是这个东西带来的 , 带给普通人或者带给有创造力的人的的的变化是非常大的 。 明年我们会看到更多的这种案例 , 比如今年我们有对吧 , 小猫不光灯 ,有华生的对吧 , 还有一些其他的 , 比如说赵分享对吧 , 可能明年会看到更多这种案例 ,他完全解放了一个人的创意 。
很棒 。 对 ,其实 2024 年即将过去了 , 就是看过去一年是有的人觉得 AI 进步是惊人的 , 自己的日常工作有一半以上都可以让 AI 自动化帮着处理了 ,但也有一些人觉得 AI 好像没有啥特别的进展 , 用来用去都还是聊天界面 , 还是那一套 。
对 ,但我是认为两种看法或许都有道理啊 ,但是如果你只用只用 Kimi, 只用豆包 , 只用 ChatGPT 和 Claude 的网页版 , 可能会真的觉得 AI 的进展不大 。
但是如果用过了 Cursor、DaVin 或者 Recraft 等等新的工具 , 呃我相信大家是能够感受到 AI 在过去一年的巨大的进步的 。
那在十字路口 ,其实我们一直有一个关键词叫做 AI 时代的积极行动者 。 那这个积极行动有一个很重要的呃行动的指标 , 就是呃去积极的试用各种新的工具 。
所以真的在这里还蛮推荐大家去花点时间试一试这些新的工具 , 感受一下呃扑面而来的这种进步 。
对 , 然后说到 2024 年让人印象深刻的 AI 突破 ,其实我自己是认为是年底用到的 DaVin, 然后它让我看到了一个呃说了很久的 agent 到底应该长成什么样子 。
第一次觉得 AI 变成了呃一个真正的呃像同事一样的一个 agent,而且是一个呃智商 、 情商 、 向上管理能力 、 项目规划能力方方面面都很强的 agent。
对 , 所以我自己也很期待在明年看到不止在 AI coding 编程领域呃 agent 的不断的进步 ,也希望看到就是类似的 agent 的交互范式可以呃泛化到各种各样的领域 。
对 , 然后啊其实大聪明也有提到啊 , 就是在 agent 的进步的背后是 Function Call 的成功率的提高 。 对 , 然后也想问大聪明 ,2024 年最让你印象深刻的 AI 的突破是什么 ?
啊 , 我个人的视角可能是更偏向于项目方 , 所以说每当拿到一个新的 AI 的产品之后, 无论是 Cursor 还是 Bolt.new 啊之类的 , 我都会想 , 哎 , 这个里面是调用了哪些 API, 然后是怎样的串行或者并行的去调用的 , 然后把这个东西给解构出来 , 然后最终再套上了一个怎样的壳 。其实我们看见各种各样的非常 fancy 的 AI 应用 , 都可以把它拆解成几个 OpenAI API 的组合
方式 , 这是一定的 。 那么这个时候呢 , 当我们去看到我们明年或者接下来几个月会有哪些新的玩法的时候 ,有一个非常 tricky 的做法 ,是每个星期去过一下 OpenAI API 的变化和里面的变更 。
就比如说是呃刚刚提到的 Function Call, 从 30% 的成功率变成了 100% 的成功率 , 那在这一个基于下它能够带来哪些的变化 。
嗯 , 我我自己个人有习惯 , 就像刚刚提到的 , 我每个星期都会通刷一遍文档 。 那这个过程中我自己也总结一下, 就是今年基本上 OpenAI 的各种的 API 的变化或者是产生的应用 , 都是围绕着一个词儿结构化输出 。
怎么这么说呢 ,是在去年年初的时候 ,3 月份的时候 , 它 OpenAI 是发布了第一版的结构化输出的方案 , 还并不是以 API 的方式给到的 ,而是以一个内测的方式 , 你给呃 OpenAI 一个 YAML 文件 ,在某些调用的情况下, 它可以给你一个结构化的一个 JSON。
然后直到去年 6 月份的时候 ,OpenAI 发现了 agent 这么一个可落地的场景 , 去找了很多做 agent 开发的朋友 , 然后同时也表示会进一步的去迭代这个结构化输出的方案 。在去年 11 月 11 月 6 号的时候 ,OpenAI 悄悄的 , 比较悄悄的吧 ,是低调的发布了一个模式 , 叫做 JSON Mode, 这个时候预示着结构化输出成为一个主流的一个重头戏 。
而在今年的时候 , 我们会发现无论是实时交互的 API、 多步思考的 API 和等等等等的这么一个 API, 它其中都会去围绕着结构化输出的成长 ,而每一个产品最终落地的时候 , 都预示着都是对应着这一版结构化输出到达了一个新的规范 。
而在现在的一个新的一个范式里面 , 就是结构化输出将同时的从你给我一个信息 , 我给你一个 JSON 文件 , 变成你给我一堆信息 , 我同时给你一堆的 JSON 文件 , 让你同时有多个手去操作不同的事情 。
而每一件事情的操作的成功率都从 30% 变成了 100%, 使得 AI 可以去 handle 一个足够大 、 足够复杂的交互 。 那在我看来 , 于是 2024 年最令我印象深刻的突破就是结构化输出从一个 tricky 的玩具变成了一个真实的能够影响现实世界的 , 能够影响我们的开发者生态的项目生态的一个非常核心的因素 。
而但这个因素是隐藏在背后的 ,并不为大家所见 。
哎 , 我们聊完了 OpenAI 这 12 天的发布会哈 , 然后也不得不提的就是在这 12 天期间 , 呃 Google 也放了大招 , 发了 Gemini 的 2.0, 然后呃我自己用下来是感到挺震撼的 。
不管是它的这个 Flashy Thinking 的呃这一个版本的模型的这种回馈的质量 , 然后包括它把它整个这个呃思考的过程也暴露出来 , 就思考的过程呃暴露出来的文本 , 甚至超过了它吐出来的这个答案的文本量啊 。
就你可以看到它是多么聪明的一个智能体 ,在认真的对待和认真的拆解你的每一个问题 , 一步一步的思考给答案 。
而且这个速度很快的 , 就是差不多也是几秒内就可以给到答案 , 这个比 O1 当时发的时候可快多了 。
对 , 然后同时还有它的多模态 ,也感受这个很丝滑很流畅 。 对 , 然后想问一下二位 , 我们在看到 Gemini 2.0 的时候 , 呃当时用下来有些什么样的感受 , 或者有没有一些可以和大家分享的呃一些信息资讯等等。
我核心的感受就是它的多模态输入输出 , 就是刚才其实嗯大聪明说了 OpenAI 也有嘛 ,但是 OpenAI 就是其实没有一个地方可以让用户感受到它这个结果 。
但是 Gemini 的那个视频理解真的是独一份的强 , 视频理解它如果我那天试了一个 , 就是说呃给它一个 20 分钟视频 , 那个视频是没有那个字幕的 , 让它去转录这个视频 , 然后根据视频的内容去给我整成整理成一个文章 , 就它整个模型一下就给我把整个的这个整理出来了 ,而且会润色结果 , 直接一步输出 , 这个很厉害 。
另外就是比如说我之前参考海星那个做了一个呃拆解 , 就是说给它一个一分钟的一个 AI 做的一个视频 , 就是多段 AI 做的视频 ,其实是 AI 创作者做的视频 , 它有多个分镜 , 那一分钟可能有十几个分镜吧 , 然后它给我输出每一个分镜的开始时间 、 结束时间 , 然后给我输出每一个视频是分镜视频的具体内容 。
那这个时候我可以快速的把那个视频复刻出来 , 就是基于我们刚才说的很成熟的这个 DIT 视频模型 , 就是它俩一结合的话 , 我几乎可以复刻任何一个视频 。
对 , 就是一步到位 , 给它视频 , 点击确定 , 把这个扔到视频生成模型里 , 直接自动剪辑自动输出 。
对 , 配音如果它有原生的 , 它有原生的语音语音模型嘛 ,也可以用它直接出 , 这个也是很厉害的 。
对 , 这个是代表了一个在内容生产或者在内容视视频内容生产上一个飞跃的这个效率进步 。
对 ,其实今天这一期聊到这里啊 , 我还呃蛮开心的 , 就觉得对 2025 的期待值是蹭蹭蹭的往上涨 。
嗯 , 就感觉这个得到了非常多积极的信念感 , 相信 2025 会发生很多了不起的新的事情 。 然后也感谢二位吧 , 今天我们先聊到这 。
我觉得你们输出了非常多呃很独特的洞察 , 看到了我们只看新闻发布会的这个新闻通稿本身看不到的背后的一些细节和观点和对未来的影响 。
对 , 然后谢谢二位 , 我们一起期待 2025,也欢迎 2025 你们再多来做客几次十字路口 。
如果你认为有朋友也会喜欢本期十字路口的内容 , 请转发微信推荐给他们 。 最后欢迎你加入十字路口的会员群 , 我们会在群里每天放送 AI 全球新闻 ,并且鼓励大家在群里聊天互动交朋友 , 寻找未来的同路人。






