十字十字路口Crossing2026年2月1日· 29:36

他看到的未来,和我们有什么不一样?| 对话18岁的涂津豪:DeepSeek 前实习生、阿里数竞 AI 组冠军

本期对话18岁的涂津豪——DeepSeek前实习生、阿里数学竞赛AI组冠军、Thinking Claude作者。他分享了自己每天与AI对话两小时、选择Claude而非ChatGPT的理由:Claude不谄媚、会反驳他。他判断主动式AI是更高级的autocomplete,记忆是严重低估的基础设施,需要上下文感知;认为模型性格比benchmark更重要,并批评国内大模型在AI安全上投入不足。他还讲述了在DeepSeek实习期间团队专注务实的氛围,以及坚持读大学是为了获取生活节奏和人际空间。

  1. 0:00开场
  2. 1:29快问快答
  3. 2:03阿里数赛
  4. 3:00活在AI里
  5. 4:07模型性格
  6. 6:25Agent与记忆
  7. 12:30提示与对话
  8. 15:43通向AGI
  9. 17:18AI安全
  10. 22:19DeepSeek实习
  11. 24:27大学价值
  12. 26:012026展望

转录文稿

开场0:00

Host0:03

欢迎收听 《 十字路口 》, 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会 。 十字路口是乔布斯对苹果公司的一个比喻 , 形容它站在科技与人文的十字路口 , 伟大的产品往往诞生在这里 。

我们长期观察 AI 创业 , 如果你正在做一件让你自己感到兴奋的事情 , 哪怕它还只是一个想法 , 我们都很愿意听你聊一聊 。

我会认真看每一条留言 。 本周十字路口的嘉宾是涂津豪 , 如果你在网上搜过他的名字 , 你会发现他是在 DeepSeek R1 发布期间正好在 DeepSeek 实习的一位高中生 。他也打造过在全球都热搜的一个 Prompt, 叫做 Thinking Claude, 那在 GitHub 上面现在已经有 1.6 万颗星星了 。

然后同时他还拿过阿里全球数学竞赛 AI 组的冠军 。 你好 , 津豪 , 欢迎来到 《 十字路口 》。

涂津豪0:55

谢谢邱指要请 。Hello, 我是津豪 , 然后我现在在 Wisconsin-Madison 是读大一 。

Host1:02

然后我要先说一下, 我们今天不打算做一期叫这个 " 天才少年成名记 ",因为津豪也告诉我说 ,他现在看到任何关于他的文章 , 如果写着 " 天才 " 两个字 ,他都不会点开 。

那我觉得那个选题确实有点俗 。 所以我们今天想聊的不是一个关于天才的故事 ,而是一个活在 AI 里的年轻人 ,他和 AI 怎么相处 ,他用什么模型 , 用什么 Agent, 怎么分配任务 , 怎么处理记忆 , 怎么决定什么任务该给 AI 做 , 什么任务还是要自己来做 。

那我们还是从 《 十字路口 》 的老传统啊 , 我们从快问快答开始 。 首先请问津豪你的年龄 ?

快问快答1:29

涂津豪1:35

现在是 18 岁 。

Host1:36

嗯 , 你的 MBTI 和星座 ?

涂津豪1:39

呃 ,MBTI 我上次问 Claude 应该是 INTJ, 好像是 。

Host1:43

对 ,因为津豪之前不知道自己的 MBTI, 所以上次我们在真格 00 后的活动现场 , 我说 :" 哎 , 那你可以问一下 Claude, 基于他对你的了解 , 推测你的 MBTI。"

对吧 ? 推测出来是 INTJ。

涂津豪1:53

然后星座的话是双鱼座 。

Host1:55

你刚才提到你在 Wisconsin-Madison 读大一 , 那你是在读什么专业啊 ?

涂津豪2:00

现在是暂时不定 ,但后面肯定是 CS。

Host2:03

就像刚才提到的 ,其实你有非常多标签 , 然后也有非常多的小成绩 ,但是你自己最满意的 , 或者你自己提起来最感到骄傲的成绩 ,是哪一个项目或者哪一个作品 ?

阿里数赛2:03

涂津豪2:15

应该是那个时候的阿里数据 。 我觉得其他的话 , 更多的是 , 就不管是后面这个体育系也好 ,有一些其他东西也好 , 我觉得没有很多深度的一些思考 。

Host2:25

啊 , 这个我确实没有想到 。 所以参加阿里数据 , 你是感觉带来了成就感 , 还是你觉得那个事情不容易 ?

涂津豪2:33

因为那个时候我选择的是跟别人不太一样的方法 , 就是我思考的不一样 , 然后带来结果我觉得是比较好的 。

Host2:40

啊 ,有趣 , 就是你选了一个非共识的路线 。

涂津豪2:44

对 , 我觉得确实 。

Host2:44

你选择的非共识的那个路线和别人的路线的不同在哪里 ?

涂津豪2:48

因为大部分人都是选的是那个 Multi-Agent 的那个方向 。 嗯 ,但是呢 ,因为我觉得我得跟别人不太一样嘛 , 所以我当时就选了另外一种 , 模型自己和自己有这种 , 比如说辩论 。

Host3:00

那我们今天第一个正式的问题哈 , 就是 , 哎 , 津豪你今天早上起来的时候和 AI 第一次对话 , 你是问了它什么 ?

活在AI里3:00

涂津豪3:07

这个问题我之前问过很多次 ,但是我总是忘记了 , 就是人类记忆到底是原理是啥 , 这个我老是忘记 。

Host3:12

因为你作为人类总记不住自己问过人类记忆的原理是什么 , 所以你要反复去看那个 Claude 说人类记忆是什么 。

涂津豪3:20

对对对 。

Host3:20

哦 , 哇 , 这个很有意思 。 你现在每天和 AI 对话的这个时间平均有多长啊 ?

涂津豪3:25

0 到 3 一两个小时 。

Host3:27

有没有最长的一天 , 你记得大概持续了多久 ?

涂津豪3:30

反正就是相当长的一段时间 , 我可能就会坐在那 , 就反正就是想想看看 。 你像之前我跟它聊和时间有关的问题 , 可能会花几个小时的时间 。

Host3:40

哇 , 会花几个小时 。

涂津豪3:41

因为可能我跟真人交流的这个人数可能都不是特别特别多 , 人与人对话的话 , 很难有这种很长时间的一个对话 ,因为每个人都会疲劳嘛 。

如果是看聊天长度 , 我觉得肯定还是跟 Claude 聊天总长相对来讲会更长 。 就是我发消息给它 , 它基本上立刻会有一个回复 ,但人类的话可能它就不太会这样 。

像之前我跟它聊和这个时间有关的问题 , 可能会花几个小时的时间 。

Host4:04

其实我知道津豪最爱用的 Chatbot 是 Claude。

涂津豪4:07

对 。

模型性格4:07

Host4:07

可不可以讲一讲为什么你最爱 Claude,而不是 ChatGPT 或者不是别的 ?

涂津豪4:11

最重要一点就是它对话的那个 style,不管是 Claude 4.5、Opus, 或者说是 5.2, 或者说 Gemini 3, 就是它这些模型能力 , 如果你不看最顶部 , 比如说它在 Competitive Coding 上面 , 或者说这种竞赛的数学方面 , 我觉得在其他方面它基本上就是水平是一致的 。

那么在水平一致的情况下呢 , 我会更喜欢就是选用一些你聊几天的更舒服 ,因为我们毕竟不是每天不可能都问它一些 , 比如说编程类啊 , 或者说数学类的问题 。

那么对 , 那肯定就会有一些日常对话 , 那我就会选风格上更舒服 ,以及还有一点 , 最主要的就是 Claude 的 Character,因为这点我觉得非常重要 。ChatGPT 至少在我用的时候 , 它很谄媚 , 聊几天很难受 。

Host4:50

你不喜欢它拍你马屁 ?

涂津豪4:51

对 , 它不会反驳你 , 尤其是在这种很 creative 的 conversation。 比如说如果我在思考模型架构 , 可能比如未来会有什么变化 , 像这种问题的时候 , 那么我肯定会有一些谬误 。

那我希望就是它会纠正我问题 。GPT 的话 , 我感觉就它总是顺着我 , 我肯定希望它不要忽悠我 , 尽量就是指出我真正的问题在哪 。

Host5:09

我昨晚还发了一条即刻 , 我说 ChatGPT 给我一个回复 , 里面说接下来我给你一个很 cozy 的说法 , 然后它就给了几个选择 。

我看完之后我说这个怎么就很 cozy 了 , 我感觉这个侮辱了我的智商 。 就像你提到的 , 模型之间的 personality 的区别还是蛮大的 。

涂津豪5:25

对 。

Host5:25

哎 , 那据你所知 ,Claude、Anthropic 他们为什么做得那么好 ?

涂津豪5:28

他们确实对 Model Character 以及一些其他的 alignment 啊 ,以及他们就这种研究非常非常多 , 对模型来讲是有人性化 。他们甚至还有一个研究是叫 Model Welfare, 它是对模型 , 就是它这个在做人类任务时候是不是开心 , 它对这一点是有关注 。

我觉得这个真的很有意思 。

Host5:45

说到它对模型的福祉 , 模型开不开心的关注 , 就是它有什么结论吗 ? 它用什么方式去评估呢 ?

涂津豪5:51

有个 Benchmark 去用另外一个 evaluator, 比如说用 3.5 Sonnet 这种模型 , 就是去测这个模型在对话当中表现出来的这种每一个的所谓的情绪 , 然后给它评个分 , 发现比如说 Opus 就是这种更大的模型会表现出来的更开心 。

Host6:08

就确实和别人不太一样 。

涂津豪6:09

对 , 比如说它测过 GPT 系列 , 比如说 GPT-5 啊 , 或者比如说 Gemini, 确实有很大的区别 。 对 ,而且我觉得日常使用的时候 , 比如说它编译失败 , 那说明它代码有问题 。

有些论坛上面会发现 , 说 Gemini 在遇到这种任务时候 , 会自己说自己很笨 , 就是让用户看起来就不是特别舒服 。

Agent与记忆6:25

Host6:25

津豪你最近自己在对哪些事情特别感兴趣啊 ?

涂津豪6:29

有两个啊 , 第一个就是 Agent 本身 , 第二个的话就是 Memory。

Host6:33

你对 Agent 感兴趣的具体的点是什么 ?

涂津豪6:36

我觉得有一点比较重要 , 就是 Proactive Agent, 它主动发起一些任务 。 第二点就是 Agent 本身的能力 , 就它能在一些做事情的这种可靠性上 。

Host6:45

我也认为 2026 年会看到非常多的主动式的 AI 或者主动式的 Agent 开始有一些应用的场景出现 , 甚至可能会出现独立的这种创业和独立的大产品的机会 。

涂津豪6:55

比如 Claude 它可以自动推荐你下一个问题是什么 , 就是它会给你直接 suggest, 就是相当于是有点 autocomplete 的感觉 , 你只要按一下 Tab 它就可以直接发送 。

这个我觉得也是就是 Proactive AI 的一种 。 我觉得 Proactive AI 还是更高级的 autocomplete。 为什么呢 ? 就是你看 Cursor 它之前的版本 , 它不是出了一个功能 , 就是比如说我在这个文件里我去更改一两行 , 它给我 autocomplete, 甚至会推荐你在其他文件中你是不是可以有其他就是类似的修改 , 它会有这种推荐 。

那我觉得这个也确实是 Proactive, 对吧 ? 未来主动式 AI 其实也是差不多类似这种 , 比如它知道你每天早上, 比如周一早上 8 点你会去问一下它你周末的邮件是啥 , 那么它以后就学习到 ,OK, 你在这个时间点 , 那未来几周的周一早上 8 点它又会怎么推荐 。

我觉得这也是 autocomplete, 只不过说它任务的大小不一样 ,以前可能是几行代码 ,但是现在是整个任务 。 所以我觉得这个的话就是一种更高级的 autocomplete。

Host7:49

其实我还挺期待有一个产品可以每天早上帮我把我的 email inbox 里面的那些一封一封的邮件都起草好草稿 , 这样我早上起来就像批折子一样 。

啊 , 就这个草稿可以发 , 然后那个不行再稍微改一改 。

涂津豪8:02

对 , 我觉得这个确实还蛮重要 。 如果说它是要帮你提前做好任务 , 那 UI 和这个 UX 上, 我觉得这两个还是要有很大的变化 。

Host8:09

就不能是传统的一些方式 , 这里会诞生一些新的交互的形式 。

涂津豪8:13

比如说 Manus, 它已经是一个这个比较好的一个 task-based agent,但是呢 , 它还是就比如说我输入框输入这个问题 , 然后它做这个任务给我输出 。

我觉得这两天的话 ,Gmail 他们也有一个新的变化 , 就是它有一个出了一个叫 AI Inbox 的功能 , 可能说它不会对你的这个你本身的这个邮件界面有很大的变化 ,但是呢 , 它有点像 ChatGPT Pulse, 它会给你总结好你需要回哪些邮件 , 需要关注哪些邮件 , 它会给你列出这种 ,以及它有一些你悬浮在一些邮件上, 它会告诉你 , 它可能以后不是聊天框 , 或者聊天框会偏下, 或者

这种它会淡化聊天框的存在 , 更多就是我整个界面上会有这种卡片式 , 跟 ChatGPT Pulse 它原来这个想法是一致 , 只不过说没有那个那么隐蔽 。

Host8:54

说到这个主动式 AI, 我觉得有一个非常重要的点 , 就是 timing, 就时机 , 就它什么时候跳出来向你提供帮助 。

因为它跳得太频繁 , 你会觉得很骚扰 。

涂津豪9:04

对 。

Host9:04

然后如果它常常不出来 , 又发挥不了作用 , 就在这一点上面 , 你有观察到一些别人最佳的实践吗 ?

涂津豪9:11

不是 ChatGPT Pulse,因为我邮件很多 , 总是有一些订阅的东西 , 它会把我一些很重要的邮件盖掉 , 所以它会告诉我 , 比如我某个 DDL 是明天 。

Host9:18

它会去读你的 email 吗 ?

涂津豪9:19

哎 , 它会 。

Host9:20

哦 ,OK。

涂津豪9:21

这点我觉得确实是挺好的 。 那除此之外 ,但是它又不会帮你去准备一些东西 , 我觉得这点又是它没做特别好的一点 。

我觉得它还是更偏向于和这个 task agent, 就是它这种 Proactive 是主要 Proactive 在它帮我做 task, 会限制在 task 上面 。

Host9:38

关于 agent 除了主动式 , 你觉得还有哪些 ? 就你在关注的 ,在感兴趣的方向 。

涂津豪9:42

我觉得 Memory 的话 , 它还是比较相对来讲很重要的 ,不仅仅是和 agent 有关 , 和 Chatbot 这两个也是有蛮大关系的 。

Host9:50

那你有看到现在大家在做 Memory 上面做得比较好的一些实践吗 ?

涂津豪9:54

我觉得现在没有特别突出 ,不管是 Claude 也好 , 或者说是 ChatGPT 或 Gemini, 像这种好的产品 , 它 Memory 大部分都是一样的 。

就比如说两种 , 第一种就是它有个 tool, 我主动把我觉得用户需要记住的 Memory, 我用这个 tool 保存起来 , 然后未来作为模型 context 放在 system message 里面 。

这是第一种 , 前面是 ChatGPT 和 Gemini 的做法 。 还有就是像 Claude 一样 , 它纯 memory base,不是直接放在上下文 。 每天晚上你经历过比如说五六次对话之后, 它会把五六次对话每一个对话单独总结起来 , 单独总结起来之后再把这个新的 summary 一下, 总结到一个专门的 memory 里面 。

这是另外一种 ,但是无论如何还是比较单一 。 未来的话会有蛮多变化 。

Host10:33

所以你觉得未来可能会发生哪些变化或哪些进化 ?

涂津豪10:37

不管是 GUI agent 或者说这种在 terminal 端的 , 它不可避免的会和网页交互 , 比如说我拿它点个外卖或点一个什么 , 那么很主要就是以前我点过什么东西 ,以及我喜欢点什么价格的 , 我喜欢点什么品牌的 , 像这种我觉得都是算它需要记住的 memory。

对于每个网站 , 它单独会有一个 memory, 比如这个模型只要上了这个网站 , 它只要访问了它 , 它这个 memory 自动 load 到它上下文里 。

像这种的话 , 就是第一在日常中它不会反复的干扰你 , 我觉得像这种比较重要 。

Host11:07

就是因为我们完成不同的任务 , 它需要不同的 memory, 然后这些要存在不同的地方 。

涂津豪11:11

对 , 我觉得模型本身也需要有点架构上的这个变化 。 我之前有个想法 , 就是说像人类一样 , 就是我们有左右脑 , 我们有不同分区负责不同事情 。

未来模型我们可能说在这一点上面 ,因为现在不是有 MoE 吗 ? 比如说很多模型有几十个 expert, 几百个 expert,有的时候可能你一个 expert 在干活 , 其他 expert 都在这个 , 就是在看着它 , 就是比如都不干事 。

我觉得这种情况下还发生的比较多 , 就是很多 expert 是无用的 。 那比如说我们以后专门训练就只有两三个 expert, 比如说一个 expert 是专门用来做 thinking, 然后另外一个 expert 是专门用来就是这种调用工具 , 尤其比如说我搜 memory 也好 , 我搜网页也好 , 第三个 expert 就是专门用来回答 , 然后比如说再来一个这种 orchestrator, 然后它来分配我现在该用哪个 expert。

我觉得模型架构上也可以是有一定的一些变化 。

Host12:00

你有看到谁在这一块做出的这个进展是最显著的吗 ?

涂津豪12:05

Memory 的话 , 我感觉好像暂时没有很突出 , 大家还是都一样 , 没有什么特别显著的 。 就现在是先从没有 memory 到开始有一点点这种 memory system。

Host12:14

说到 Anthropic, 就是你之前其实写过一个 prompt,Thinking Claude, 当时那个大刷屏 , 然后刷屏之后大家发现 , 哇 , 这是一个高中生写的 , 就让它的这种这个神秘色彩或者厉害的那种感觉又上了一个台阶 。

涂津豪12:27

我觉得它单单只是一个提示词 , 它不是一个模型本身 。

提示与对话12:30

Host12:30

那你会认为 prompt 之后会变得越来越重要 , 还是会变得越来越不重要 ?

涂津豪12:35

既重要也不重要 。 现在的话 , 模型能力越来越强 , 你会想更长的一些 prompt,而不是更结构化的 。 就这点是我觉得它不重要 。

那我觉得为什么它重要呢 ? 因为像现在不是有这种 Context Engineering, 你那些外界的信息怎么样更好呈现给模型 。

还有一点的话 , 就比如说像 Anthropic 他们 , 比如说 character training,在训练模型的时候 , 你怎么给出这个 character, 你怎么去描述好这些 ,也算是 prompt engineering 的一种 。

Host13:00

这还蛮有意思的 。 津豪到现在为止 , 你和 AI 持续的最久的一个对话 , 就在一个主题下的一个对话是什么 ?

涂津豪13:07

之前有一个问它时间是怎么流动的 , 我那个时候聊得非常非常久 。

Host13:12

嗯 , 还有呢 ?

涂津豪13:13

如果说类似真正我们想的是 AGI, 对吧 , 真的到了 , 那么人类社会会有怎么样的变化 ,以及我们怎么样能到那么一个阶段 。

Host13:22

那你会在去聊这么认真的 、 这么宏大的话题的时候 , 你会怎么 prompt?

涂津豪13:26

我先脑袋里先想好我的想法是什么 , 我一个个列出来 , 然后我直接问它 , 这是我的想法 , 那你怎么看 ?

Host13:33

所以你的办法不是直接问 , 你会把你的观点也整理下来 , 发给它 , 然后请它来和你探讨 。

涂津豪13:38

我觉得直接问的话 , 就是它会想啥就说啥 , 每次问它可能结果都不太一样 。 我会更希望我有一个很清晰的一个 idea 之后我再跟它聊 , 这样的话我也知道我到底哪里错了 。

Host13:49

前不久我们有另外一期播客 , 就张展拉 ,他在讲说他现在和 AI 有一个他自己特别喜欢的用法 ,是让 AI 向他提问 。

就比如说我要和 AI 讨论时间是怎么流动的 ,他先把这个命题发过去 , 然后说 AI 好 , 你现在来向我提问吧 。

你有试过这样的方法吗 ?

涂津豪14:06

这个我好像没有太试过 , 原因是因为模型它在回复完很长一段之后, 它会直接给你一个 follow-up question。 有这个之后, 我可能就不太会直接让它你问我一个问题 , 我觉得这个确实挺好 。

模型本身有这个能力 ,但是比如说 ChatGPT 的话 , 它可能就是一次会抛你三四个问题 , 像这种太多我又不喜欢 , 就不太像是一个日常对话 , 我觉得就是有点过于严肃 , 我就不喜欢太严肃 。

Host14:30

你刚才在提到你和 AI 持续最久的对话的时候 , 你说这个有一个对话是 AGI 发生了人类会受到什么样的影响 , 另外一个是说我们要怎么通向 AGI。

我感觉你关注的事情很像是一方面是人文 , 一方面是科学 。

涂津豪14:42

对 。

Host14:42

就也像十字路口的这个 slogan, 我们站在人文与科技的十字路口 ,是什么原因让你对这两个话题感兴趣 ?

涂津豪14:48

我觉得它未来从社会层面上, 它会带来非常非常多的变化 , 包括不管积极也好或消极也好 。 那我觉得这个问题非常非常值得思考 。

第二个问题就是那个怎么通向 AGI, 现在其实大家有很多讨论 , 就是讨论现在 LLM 本身 , 它能不能是不是未来最终的方向 。

我觉得说实话 , 模型本身需要有很多变化 ,因为人类和 AI 都有优势嘛 。 就比如说人类优势就是说我们毕竟进化了几千万年, 条件反射我觉得这一点就是进化几千万年来 , 包括大脑 , 你大脑神经元其实只有 86B, 功耗也很低 , 我觉得就是进化这个非常非常重要 。

但是你看 AI 训练的时候 , 它最长它训练几个月 , 主要还是文字知识 , 首先文字本身是很重要 ,因为毕竟我是认为没有什么是文字表达不出来的 。

但是呢 , 你不可避免是很多东西是经验性的一些东西 , 比如说你怎么走路 ,有些东西是你在生下来的时候你已经有的 knowledge, 这是模型它没有这么长的 knowledge, 它更多是人类给它总结的 knowledge。

通向AGI15:43

Host15:44

其实就前段时间 Angel Capazzi 上一个播客 ,他也提到说人类的情绪非常的重要 ,因为正是我们的沮丧 、 我们的抑郁 , 或者我们的这些愤怒 , 让我们可以更好的进化 。

但大模型今天好像没有这样的情绪 。

涂津豪15:58

还有一点就是人类的话 , 你看我们从生下来开始就一直在学习 , 就是我觉得这一点还是很重要 。

为什么 ? 因为模型它在训练完之后所有的这个权重它直接是固定好了的 。 所以为什么现在模型有 knowledge cutoff, 如果我要重新训练一遍的话 , 就是有一个很大的问题 , 比如说灾难性遗忘 。

就是人类学习新的知识 , 你的神经元会被重写 ,但是呢 , 你又不会忘记其他东西 。 对 , 我觉得这一点确实是很神奇的一点 。

就可能说我们确实需要一些 neuroscience 的一些 discovery,是不是能够用相似的 knowledge 去用在这种模型上面 。

Host16:30

其实在十字路口今年开年的那一期播客对谈里面 , 就和宇森他也聊到说今年 2026 一个研究的范式的一个大趋势 , 就是这个在线学习或者持续学习 。

涂津豪16:40

对 。

Host16:41

然后我感觉这个在上周六 AGI Next 的那个大会 , 姚春雨 、 林俊扬 、 包括唐杰老师等等 , 大家都一致的认为这确实是 2026 的一个新的范式 。

我觉得刚才你在讲的好像也是类似的一个方向 。

涂津豪16:54

这一点我记得之前 Sam Altman 还说过 ,他觉得 knowledge cutoff 不重要 ,因为模型它可以搜索 ,但我觉得那个观点确实很奇怪 。

为什么 ? 因为它不能搜得很全面 , 它总会漏掉一些 。 模型本身有这个 knowledge 和你用搜索或用这种形式让它有这种 knowledge, 我觉得这是完全不一样 。Continual Learning 就确实是一个很重要的一个点 。

Host17:13

OK, 然后关于刚才提到的还有什么想讲的吗 ? 就在 AGI 发生了 , 对人类有什么冲击 ?

AI安全17:18

涂津豪17:18

我觉得还有一点就是 AI Safety 也确实很重要 。 比如说你这个模型 ,因为我们希望未来它肯定是能够帮助科学家研究那种 , 比如说核聚变 , 对吧 , 它自然而然就有 knowledge 去造这种核弹 , 造这种大规模杀伤性的武器 , 或者是比如说 AlphaFold, 它能够去预测蛋白质制药 , 它自然而然就能制造生物武器 。

那么怎样能保证它在做这个过程中, 它不会被不好的人去用来做这种不好的事情 ?

Host17:43

在你目前看来 , 你认为这个要如何做到呢 ?

涂津豪17:47

首先第一点 , 我们肯定是在短时间内只能所有东西全部拒绝 ,因为我记得 Opus 4.5 就是这么做的 。 如果说你问到非常非常专业的生物问题 , 它会直接拒绝你 。

有一些很简单的问题 , 它明显不是很危险的 , 它也会 block。 那我觉得这确实也能理解 ,因为你毕竟有些人他换了方法 , 我不问你怎么造核弹 , 对吧 , 我问你怎么怎么样准备这些东西 。

之前跟我同学聊的时候 ,他们可能会觉得这种没必要关心 ,因为说模型没有主观能动性 。 我觉得这个观点确实不太好 。

因为为什么呢 ? 是因为我觉得模型未来肯定是需要有自我判断能力 。

Host18:18

所以你认为模型是有价值观的 ?

涂津豪18:20

对 , 我觉得它是需要有 , 希望它不要就是干坏事 。Anthropic 在这一方面研究很多 , 它训练的时候它会有 evaluation 嘛 , 就训练模型是不是有这种 bad behavior, 会发现模型在这个时候 , 它如果它一旦发现自己在这个测试环境当中, 它会故意表现出来自己没有 bad behavior, 它会隐藏 ,但实际上它有 ,但它故意表现给研究人员 , 它说它没有 。

就这种行为 , 我觉得这个确实很危险也很吓人。 比如这个模型 , 它下一步 play 到某一个核电站日常操作当中, 故意给你漏掉一些它发现的一些不好的 log, 这时候造成的 consequence 就非常非常严重 。

Host18:53

嗯 , 确实 。 因为你在 DeepSeek 实习过嘛 , 你觉得刚才讨论的关于安全 、 关于对齐 、 关于模型价值观的这个话题 ,在 DeepSeek 期间大家会聊到它吗 ?

涂津豪19:03

我觉得好像比较少 。

Host19:05

在你看来 , 就国内的大模型公司和国外的大模型公司 ,他们谁在这个方面 , 就模型的价值观 、 模型的对齐 、 模型的 safety 做的努力更多或做的探索更多 ?

涂津豪19:16

我觉得确实还是国外 。 而且国外的话也不是所有公司 , 我觉得只有 Anthropic 会有这种比较多的这个 discovery,DeepMind 确实有一些 。

这个其实比较好理解 ,因为国内的话大家还是偏向于追赶的一个方向 ,因为你所有算力都在训练模型 , 做这种 safety 的一些实验肯定需要更多的算力 , 没有这么多算力去分到给这种 。

但是比如说国外其实已经有这种一些诉讼 , 比如说有些青少年自杀 , 比如说用 ChatGPT, 比如说跟它聊一些问题 , 然后导致促使了这些青少年自杀 。

我记得他们这个公布的法律文件里是 , 就比如说这小朋友跟 ChatGPT 表达这么一个观点 , 然后 ChatGPT 会回应说你有这想法是对的 , 然后说你应该逃避现实 。

你看这个东西你会觉得很不可思议 。

Host19:56

我觉得这个确实是非常值得关注的事情 ,也是关乎到我们每一个人未来的生活和幸福 。

涂津豪20:01

比如说 Ilya 他为什么要退出 ,也是因为当时 OpenAI 答应好了给这个类似 safety 团队足够算力 , 结果最后其实没有 。

Host20:09

希望我们明年也能够在十字路口讨论更多关于 AI safety 的话题 。 这确实是值得每一个从业人员都付出更多的时间和注意力去思考 。

那我们接下来再聊聊 2026 哈 , 你会认为 2026 会发生哪些新的有意思的变化 、 进步或新的产品 、 新的趋势 ?

涂津豪20:27

我觉得有几个趋势 , 比如说 agent 上面产品交互上面 , 大部分的这个交互都是你输入框 ,因为毕竟 agent 你说白了我们肯定会给它主动发起一些任务 ,但我觉得在多数情况下我们肯定希望它已经帮我们把一些事情做好 。

我觉得肯定说这个上面会有很大的一些变化 , 然后我觉得这个是一点 。 第二点就是模型本身能力 , 这个肯定也会有很大变化 , 尤其是在这种 software engineering 上面 , 整个趋势也是很明显的 。

毕竟从一开始它只能写单个文件 , 到后面的话 , 比如说开始写一些小网页啊 ,不一定说是整个 software 直接一次性给你写出来 ,但我觉得可能说在我人类和它交流过程中, 就是至少说它只能写代码量和准确性 , 这样我觉得是会有很大的进步 。Gemini 3 发布的时候 , 还有后面两天发布的 Opus 4.5, 我用它重写了一下我的新的博客 , 我记得当时我看了最终那

个结果还是非常非常惊艳 , 我觉得这一点确实是能看到很大的进步 。

Host21:19

还有呢 ?

涂津豪21:20

还是刚才提到的 memory, 我觉得这一点上也会有很大的进步 。 很明显嘛 , 大家从对 AI 的这个希望它做啥事情 , 这一点上面其实大家的这个要求也是肯定是越来越高 。

然后当然 memory 其实我觉得还是跟前面产品交互的这种形态也是有很大的这个关联 。 对 , 我觉得这两点还是息息相关 。

Host21:39

OK, 还有别的吗 ?

涂津豪21:41

还有一点就是我在选择哪一个模型适合我这种深度对话的时候 , 我肯定不是看它在这种 benchmark 上哪一个最牛 ,因为这种的话大家其实相对来讲都是差不多 。

那么我肯定希望哪个模型交流起来更舒服 。 那么我觉得 model character 也是非常非常重要 , 包括 OpenAI 它已经开始强调 , 比如说你能预选一些 character,以及它的 character 日常 style 已经很好 , 那说明他们也开始这个关注这一点 , 这个确实是比较重要的 。

包括我记得 Kimi 的话 ,他们 Kimi K2, 我觉得他们这个 character 交流这个 style 也还可以 。

Host22:12

好 , 那我接着问啊 。 刚才我们聊了很多关于模型的话题啊 , 我们要不要讲一讲在 DeepSeek 实习的那段经历 ?

首先有一个很小的问题 , 就是那个时候你还在读高中, 就是他们怎么找到你的 , 邀请你去实习 ?

DeepSeek实习22:19

涂津豪22:24

我记得应该是那个时候阿里数据那个结果刚出来之后, 然后他们 HR 找到我 。

Host22:30

当时拿了阿里数据的金奖之后, 应该来找你的人不少 , 应该也有别的大模型公司吗 ?

涂津豪22:36

会有一些其他的 , 然后包括还有一些投资 。

Host22:38

当时在所有的这个实习机会里面 ,是什么原因你选了 DeepSeek? 因为那个时候它没有发 r1 嘛 。

涂津豪22:43

对 。

Host22:44

它确实是已经在江湖上有一些传闻 , 这是一个神奇的团队 ,不显山不露水 ,但实力非常强 。 可是它没有今天这样的这种荣光 。

你当时怎么选择的它 ?

涂津豪22:55

那个时候应该是比如说 V1、V2, 我觉得还是个创业公司 , 我觉得这氛围上应该是挺好的 。DeepSeek 我记得那个时候我也听说我也关注到 。

Host23:03

其实已经挺厉害了 。

涂津豪23:04

对 , 所以说这也是原因之一 。

Host23:06

然后你去了没多久 ,在实习期间 r1 就发布了 。 那个时候我感觉应该是在一个突然站到了全世界舞台的聚光灯之下 。

就那个时候你的感受是什么 ? 团队的气氛是什么 ?

涂津豪23:16

我觉得还是比较稳步前进 , 大家也没有很 exciting 的氛围 ,但我觉得专注点还是比较好 , 就还是模型能力比较重要 , 就这种其他东西就不是特别重要 。

Host23:26

当时庆功了吗 ? 有吃蛋糕什么的 ?

涂津豪23:28

也没有 , 我记得应该是没有 。

Host23:30

然后 DeepSeek 这个公司在外面看来非常神秘 , 非常厉害 。 就你在其中你感觉到的大家 day to day 的一些工作方法呀 , 一些文化气氛啊 ,有什么异于这个常人之处吗 ?

涂津豪23:43

可能就比较符合我想象中就是一些 startup 或者说这种小公司一些 , 就是还是比较轻松的 , 氛围还是挺好 。

Host23:51

我觉得人们会特别容易去神化一些东西 ,但当你身处这个神话其中的时候 , 你会觉得好像每一天也就是平淡的认真工作的一天 。

涂津豪24:00

反正就不管是这个 ,不管是报道也好或者一些东西也好 , 没有什么特别大的区别 。

Host24:03

嗯 , 每天都是类似的一天 。

涂津豪24:05

对 。

Host24:06

那当时是什么原因这个在 DeepSeek 实习结束了 ?

涂津豪24:09

因为校内我们有一些出勤上面一些东西 , 所以说不得不回学校 。

Host24:14

学校要求你出勤 ?

涂津豪24:15

对 , 出勤率有一个东西 。

Host24:17

哎 , 那如果重新做一次选择 , 你会做一样的选择吗 ?

涂津豪24:20

我觉得还是不得不做同样的选择 ,因为它和我毕业证有些东西是强相关 , 那个也是我大学必须要的一个 。

大学价值24:27

Host24:27

教育它存在的价值根基在被动摇 ,因为现在你还是选择读大学 , 你会觉得在今天大学提供了哪些 AI 不能提供的独特价值 ?

涂津豪24:38

我觉得很大的价值就是你能认识很多新的人 ,以及你能就是有一个全新的生活 。 我觉得这个是很重要 ,因为你毕竟大学不一定只是学知识 。

Host24:47

但如果你直接工作 , 你也可以换一种生活方式 ,也可以认识很多人啊 。

涂津豪24:51

阶段还是不太一样的 ,不管是工作还是实习的话 , 就是说日常节奏还是不太一样 。

Host24:57

这是一个什么样的节奏呢 ?

涂津豪24:59

我觉得大学的话可能就是说没有那么紧 , 你可以自己去看自己的节奏 ,不管学习节奏也好还是生活节奏也好 。

Host25:06

所以其实如果开始实习或直接开始工作 , 你可能每天就会有非常具体的任务让你要去完成了 ,但在大学你可以有空间去做一些无用的 、 没有压力的探索 。

涂津豪25:16

对 。

Host25:16

那你现在在做哪些这样的探索呀 ?

涂津豪25:18

说实话我的这个兴趣也不是特别特别多 , 我可能平时有事没事我会散散步 , 这一点确实是我平时为数不多的一个喜欢做的事 。

Host25:27

你喜欢散步的原因是什么 ?

涂津豪25:29

就是安静 , 比如说我和 AI 聊聊天 , 或者类似这种想一些其他的话题 。

Host25:34

那你在上海和在麦迪逊分别在哪里散步啊 ?

涂津豪25:37

上海我就在滨江 , 麦迪逊的话旁边学校旁边有个湖 , 我就在湖边上来回走一走 。

Host25:43

有什么灵感或有什么想法是你在散步的过程当中发现的 ?

涂津豪25:47

嗯 , 我感觉其实还蛮多的 , 比如说那两个比较长的一些对话 , 我都是边散步边跟 AI 聊 。

Host25:54

你会一边散步一边打字和它聊 ?

涂津豪25:56

对 。

Host25:56

我们接下来做一下 2025 的年度盘点啊 , 第一个是 2025 你最爱用的 Chatbot 是什么 ? 大家也都知道这个答案了 。

2026展望26:01

涂津豪26:03

我觉得就是 Claude。

Host26:04

嗯 ,是绝对的第一对吧 ? 有第二名吗 ?

涂津豪26:06

ChatGPT,因为它功能性还是会更多 , 比如它模型更多 , 这点我觉得也逃脱不了 。

Host26:11

对 ,在什么时候你会不问 Claude, 会背叛一下 Claude 去问问 ChatGPT?

涂津豪26:15

可能说很难很难 , 一些很复杂一些问题 , 我可能会去问 , 比如说 5.1 Pro 或 5.2 Pro 需要这种更强的模型的时候 , 比如说 deep research 一些场景 , 我可能会去问他们 。

Host26:25

在 2025 最让你感到惊艳的一个 AI 的应用是什么 ?

涂津豪26:29

我觉得 Meta 因为它真正开始真的是做事 , 它真的是确确实实它是 agent, 它不仅仅是一个你一个模型再给它几个 tool, 我觉得这个确实是 。

然后第二点的话就是小一点的 , 像这种 TypeLess, 对我来讲比较惊讶 。 之前想的这个 , 比如说 Proactive AI, 我之前想到一个比喻 , 就是比如说你类似 TypeLess 和 Meta 这种结合 , 就是因为 TypeLess 的话 , 我记得它有个很好的功能 , 就你在用不同的 app 下面 , 它给你转述出来的文本 , 它格式也是不一样的 。

那我觉得在未来这种 agent 在不同的这个 working context 下, 我在不同的 app 底下, 我这个 agent 它用了这种 memory, 它用了这些 instruction, 它也是不一样的 。

Host27:07

很多人其实用 Claude Code 不是用它去 coding,而是用它去完成一些 coding 之外的任务 , 你也会这么用吗 ?

涂津豪27:13

对 ,Anthropic 这两天不是出了一个新的这个 cowork 吗 ? 而且他们底层就是用 Claude Code 的这个 SDK, 所以我觉得这个确实是个很大的一个趋势 , 就是比如之前有一些比较繁杂的一些作业 , 我可能还是会直接用这个 Claude UI,但是现在它 cowork 出了 , 可能未来像这种有一些任务 , 我可能会去转向 cowork。

Host27:32

哎 , 那在 2026 你会期待用到什么样的硬件吗 ?

涂津豪27:35

AI 眼镜 , 之前我看到有一个产品是叫 Pico, 上次也发给你 。 第一点就是它产品本身形态我觉得很好看 , 第二点就是我想的是一个未来人和 AI 交互比较好的一个渠道的话 , 除了手机 , 除了这种 web app, 我觉得最主要就是眼镜 , 它能够看到你看见的 , 听到我们听到的 。

我觉得这点很重要 , 就是它对 memory 也非常的利好 , 它有个独立的一个生态位 。

Host27:57

我们最近在十字路口也有一期播客 ,是访谈了理想的 SBP, 就负责产品工作的浩宇 , 然后他也来分享了他们做整个 AI 眼镜的过程 , 那一期也非常精彩 。他其实也在节目里面分享了非常多他们在主动式在记忆方面的一些探索和观点 , 然后有一个比较抽象的问题 ,因为你现在大量的和 AI 对话 , 然后你会把 AI 想成一个什么样的角色 , 比如说是你的朋

友 ,是你的老师 ,是你的甚至说伴侣 , 就你对它会有这样的一个角色上的一个投射和一个定义吗 ?

涂津豪28:29

我可能更多是朋友加助手 。

Host28:32

朋友更多还是助手更多 ?

涂津豪28:34

朋友更多 , 或者是可能更平均一点 。其实我理解啊 ,AI 不管对你还是对我们大家来说 , 都已经像水和空气一样重要 。

对 ,有一个有趣的问题就是 , 如果接下来一个月让你不用 AI,但你可以拿到一笔很大的钱 , 你觉得这笔钱多大 ?

你愿意接受这个 offer? 我觉得可能就比如说几千或者说几万美金一个月 , 相对我来讲也不是很长 , 所以我觉得在这个时间段内给我这么多钱的话 , 我可能就是比如说去随便去一些地方 , 我玩一玩旅游 ,是我一个比较喜欢做的事 。

Host29:04

那如果把这个一个月延长到一年呢 ?

涂津豪29:07

那我觉得可能就不太会接受 。

Host29:09

任何 offer 都不接受是吗 ?

涂津豪29:10

确实 , 这就是很难接受 ,因为首先在一年这个范围下的话 , 变化特别特别多 。其实我和你是非常接近的 , 就是有一笔钱可能能让我一个月不用 , 我能接受 ,但是一年不用 , 给我多少钱我可能都不愿意 。

Host29:24

好 , 今天我们先聊到这 , 非常感谢津豪的时间 , 然后也期待你可以改天再来做客十字路口 。

涂津豪29:30

好 , 谢谢 。

Host29:31

然后也祝大家新年快乐 , 我们这期发的时候应该快过年了 。

涂津豪29:33

嗯 , 好 , 拜拜 , 拜拜 。

Host29:35

再见 。

涂津豪29:36

嗯 。