Anthropic CEO:Scaling 会继续、AGI 两年内到来、最担心的不是 AI 失控而是人类滥权
如果要找一个人来解释「AI 安全」到底是什么、为什么重要、以及它和「让 AI 变得更强」之间为什么不矛盾,Dario Amodei 无疑是最合适的人选。
十年前在百度跟着吴恩达做语音识别,最早一批押注「把模型变大就行」的异端分子。后来在 OpenAI 主导了 GPT-2、GPT-3 和 RLHF 的研究方向,然后带着一群人出走,创立 Anthropic,造出了 Claude,在最新的公告中宣称公司年化收入已达 300 亿美元,比自己的老东家 OpenAI 还高出了 50 亿美元。
这个人身上最反直觉的地方在于,他是 AI 行业里最大声谈论风险的 CEO,同时也是最坚定的 Scaling 信徒。他不觉得这两件事矛盾,反而认为它们是同一枚硬币的两面。
最近,知名播客主持人 Lex Fridman 对 Dario Amodei 进行了近三小时的深度专访。
这是 Dario Amodei 迄今为止最完整、最坦诚的一次公开表达,一个同时拿着油门和刹车的人,试图向你解释这两个踏板为什么必须同时存在。
过去十年,Scale 几乎每次都赢了
采访开篇,Fridman 直接切入 Scaling Laws。Dario 从自己的亲身经历讲起。
2014 年他加入百度 AI 实验室,作为一个新人,做了一件极其简单的事:把语音识别的神经网络变大、数据喂多、训练久一点。结果模型就是越来越好。
「当时所有人都在说『我们还没找到正确的算法』『还没破解人脑的奥秘』。但我就是个新手,我看着这些旋钮,模型大小、数据量、训练时长,然后一个一个拧。结果就是越拧越好。」
2017 年,GPT-1 的结果让他彻底确信:语言是可以无限 scale 的领域。几万亿词的语料,配上越来越大的模型,能力就会持续增长。
Ilya Sutskever 当时对他说了一句话,Dario 说这句话解释了他见过的一千个现象:「你需要理解的是,这些模型只是想学习。」
有人说,模型只能学句法,学不会语义;
有人说,句子能写通顺,段落绝对不可能;
现在又变成了「数据快耗尽了」「模型不会真正推理」。
Dario 说,这些阻碍过去一直在出现,但 scale 也一次又一次找到了绕过去的方法。
Scaling Laws for Neural Language Models
「我现在的立场是:我们只有归纳推理来支撑未来两年会像过去十年一样。但我已经看过太多次这个剧本了,我真的相信 scaling 会继续下去。它有某种我们在理论上还无法解释的魔力。」
Claude 为什么有时候「变笨了」?
Fridman 抛出了一个 Reddit 经典问题:用户老觉得 Claude 越用越笨,这是怎么回事?
Dario 首先澄清:模型的权重,也就是模型的「大脑」,在没有发布新版本的情况下是不会改变的。
「随便换权重在推理层面就很难操作,而且你改一个东西会连带改一百个东西。」
他承认有两种例外:发布前的小规模 A/B 测试,以及偶尔调整系统提示词。但这些都很少发生,而用户的抱怨却是持续不断的,不只针对 Claude,GPT-4 也一样。
他给出的理论是:模型对措辞极度敏感。你昨晚问「做任务 X」和今早问「你能做任务 X 吗」,得到的结果可能截然不同。再加上心理适应效应,新模型刚出来时觉得惊艳,用久了就只看到缺点。
「就像飞机上第一次有 Wi-Fi 时觉得是魔法,现在连不上就觉得是垃圾。」
「Certainly」评估和打地鼠困境
谈到 Claude 的性格塑造,Dario 坦承这是一场永无止境的打地鼠游戏。
曾经有一个版本的 Claude 疯狂说「Certainly」,「Certainly, I can help you with that. Certainly, I would be happy to do that.」。
为此团队专门做了一个「Certainly 评估指标」来追踪这个毛病。但问题是,你修好了「Certainly」,它可能就开始说「Definitely」。
更深层的矛盾是:你想让模型少废话,结果它写代码时就开始偷懒,给你来一句「剩下的代码在这里」。你想让它别拒绝正常请求,结果它在危险领域的防线也松了。
「这种推一边、另一边就跑的现象,我认为就是未来更强大 AI 系统控制问题的早期预兆。」
AI 安全等级:一个还没到但正在逼近的警报系统
Dario 花了大量时间解释 Anthropic 的 RSP(负责任缩放政策)和 ASL(AI 安全等级)体系。核心逻辑是一套「如果-那么」结构:如果模型通过了某项危险能力测试,那么就必须启用相应的安全措施。
ASL-1:棋类 AI 那种级别,显然不构成威胁。「没有人会用深蓝来发动网络攻击。」
ASL-2:当前所有主流模型的等级。能提供一些超出搜索引擎的信息,但还不足以端到端地帮人造出危险武器。
ASL-3:模型能实质性提升非国家行为者的危险能力。到这个阶段需要强化安全措施,防止模型被盗,部署时加装特定领域的过滤器。Dario 说他「一点都不意外明年就会触及 ASL-3」。
ASL-4:模型可能聪明到会在测试中「装傻」、隐藏真实能力。到这一步,光靠和模型对话已经不够了,必须用机制可解释性等手段从内部验证模型的状态。
关于监管,Dario 态度非常明确。
「如果到 2025 年底我们还什么都没做,我会非常担忧。我现在还没担忧,因为风险还没到。但时间不多了。」
为什么离开 OpenAI?
Fridman 问到了那个所有人都好奇的问题。Dario 的回答很克制,但也很清楚。
Sam Altman and Dario Amodei refuse to hold hands
「有人说我们因为不喜欢微软的交易而离开,不对。也有人说因为反对商业化,也不对,GPT-3 就是我参与商业化的。」
核心分歧是关于「怎么做」。
如何谨慎、正直、透明地把极其强大的 AI 带入世界?安全不能只是招聘时的口号。
「如果你有一个愿景,你不应该在别人的组织里争论。你应该带上你信任的人,出去做一个干净的实验。如果你的愿景有说服力,别人会模仿你。模仿是最真诚的赞美。」
他将此称为「向上竞赛」。
如果你能证明负责任地做事也能赢得市场,其他公司就会跟进。这比在老板面前吵架有效一百倍。
「重点不是谁赢。向上竞赛中谁赢并不重要,重要的是所有人都在互相学习好的做法。」
人才密度胜过人才总量
被问到如何打造顶级 AI 团队时,Dario 提出了一个他「每个月都觉得更正确」的原则,人才密度胜过人才总量。
100 个超级聪明、使命一致的人,胜过 1000 人中 200 个顶尖但其余 800 个是随机大厂员工的组合。因为当每个人环顾四周都是顶尖同事时,信任感和使命感会自我强化。反之,你需要无尽的流程和制度来弥补信任的缺失。
Anthropic 从 300 人快速增长到 800 人后刻意放缓了招聘节奏。他们招了很多理论物理学家,「理论物理学家学东西特别快」。
「如果你的公司是一堆各自为政的小王国,什么都做不成。但如果所有人都看到更大的使命、彼此信任、致力于做正确的事,这就是一种超能力,可以克服几乎所有其他劣势。」
成为顶尖 AI 研究者的第一素质是开放心态
Dario 说他自己不是最好的程序员,不是最擅长找 bug 的人,也不是 GPU kernel 写得最好的人。但他有一样东西:愿意用新眼光看问题。
「我做的事情简单到荒谬,这个神经网络有 3000 万参数,那如果给它 5000 万呢?画个图看看。这不需要博士水平的实验设计,这又简单又蠢。但任何人只要被告知这件事重要,都能做到。你把两件事放在一起,就是个位数的人推动了整个领域。」
他给年轻人的建议:第一,直接上手玩模型;第二,去做别人没在做的方向。
「机制可解释性可能只有 100 个人在做,但没有 10000 个人在做。滑向球将要去的地方。」
Machines of Loving Grace
这篇万字长文是 Dario 最出圈的作品。他解释了写这篇文章的动机。
Anthropic 花了太多时间谈风险,以至于大脑只想着风险。但防范风险的全部意义在于,如果我们能穿过雷区,另一边有极其美好的东西值得为之奋斗。
「如果你只谈风险,你的大脑就只想着风险。理解如果事情顺利会怎样,这非常重要。我们之所以试图防范这些风险,不是因为害怕技术,不是因为想减速,而是因为如果我们能成功闯过这个雷区,另一边是所有这些美好的东西。」
他不喜欢「AGI」这个词,觉得它暗示了一个离散的跳跃点,而实际上能力增长是一条平滑的指数曲线。
「就好像 1995 年摩尔定律在加速,然后所有人突然开始说『等我们有了超级计算机就能测序基因组了』。但根本不存在一个你跨过门槛就突然进入全新计算类型的时刻。AGI 也一样。」
对于这种 AI 能多快改变世界,他拒绝两个极端。
AI 造出更强的 AI,更强的 AI 造出更更强的 AI,五天之内纳米机器人铺满地球。Dario 说这忽略了物理定律、复杂性和人类制度的摩擦力。
像历史上每次技术革命一样,实际生产力提升会令人失望地缓慢,可能要 50-100 年。
Dario 的判断在中间偏乐观:5-10 年,而不是 5-10 小时,也不是 50-100 年。
「障碍会逐渐瓦解,然后突然全部崩塌。」
在生物学领域,AI 首先会像「超级研究生」一样工作:查文献、设计实验、分析数据、订购设备。一个诺贝尔奖级的生物学教授,以前带 50 个研究生,未来可以指挥 1000 个比自己还聪明的 AI 研究生。
然后某个时刻会反转:AI 成为首席研究员,指挥人类和其他 AI。
「从现在到 2100 年之间本该发生的所有生物医学进展,能不能压缩到 2027 到 2032 年完成?」
AGI 什么时候到?「2026 或 2027」
Dario 在给出这个数字之前做了大量铺垫和免责声明。
「Twitter 上会有无数人截图说『AI CEO 说了 2026 年』然后未来两年一直转发。截图的那些人会把我刚说的这段话全裁掉,只留我接下来要说的。但我还是要说。」
「如果你直线外推到目前为止的能力增长曲线,去年本科水平,今年博士水平,模态还在不断补齐,直觉上你会觉得 2026 或 2027 年就到了。」
「我认为最可能的是在此基础上有一些轻微延迟。但我也认为这件事不会发生的概率正在急剧减少。我们正在快速用尽真正令人信服的阻碍因素。」
他特别强调,scaling laws 不是宇宙定律,是经验规律,和摩尔定律一样。
「人们叫它们 scaling laws,这是误称。就像摩尔定律也是误称,它们不是宇宙定律,是经验规律。我会赌它继续下去,但我不确定。」
编程最先被颠覆,但角色不会消失
Dario 认为编程会是被 AI 颠覆最快的领域。
原因有二:一,编程离造 AI 的人最近;二,编程可以闭环,模型写代码、运行代码、看结果、再改。
「今年 1 月,模型在真实编程任务上的成功率是 3%,到 10 月是 50%。我猜再过 10 个月就能到 90% 以上。」
但他不认为程序员会失业。比较优势的逻辑会起作用:当 AI 能做 80% 的编码工作时,剩下 20% 的高层架构设计、UX 判断、系统审视会变得更有杠杆。人类的角色会从「逐行写代码」变成更宏观的东西。
「终有一天 AI 在所有方面都超过人类,比较优势的逻辑将不再适用,届时人类社会需要集体面对这个问题。我们每天都在思考这件事。」
关于意义:「我对意义持乐观态度,我担忧的是权力」
Fridman 在最后问了一个大问题:在 AI 越来越强大的世界里,人类的意义从何而来?
Dario 的回答出人意料地哲学。
他举了一个思想实验:如果你在模拟世界里活了 60 年,做了各种道德选择和牺牲,最后被告知这一切是游戏,这真的剥夺了意义吗?
「过程才是重要的。你在过程中成为了什么样的人,你如何与他人相处,你做了什么选择,这些才是有意义的。」
他说自己对意义持乐观态度。真正让他夜不能寐的是另一件事:权力的集中与滥用。
「我对意义持乐观态度。我担忧的是经济和权力的集中。那才是我更担心的,权力的滥用。」
「当人类社会出问题时,往往是因为人类压迫人类。我最担忧的是独裁、专制、少数人剥削多数人,而 AI 让这种权力失衡变得更加可怕。」
Lex 说:「AI 增加了世界上的权力总量。如果你把这些权力集中起来并且滥用,造成的伤害将不可估量。」
Dario 停顿了一下,然后重复了一遍:
「是的,这非常令人恐惧。非常令人恐惧。」
也许最坏的未来,不是机器人起义。
而是一个本来就不公平的世界,突然拿到了一件近乎神级的工具。
尾声
这场近三小时的对话结束时,Dario 说了一句作为全篇注脚再合适不过的话。
「如果只让我传达一个信息,那就是:要实现所有这些美好的东西,我们既要造技术、建公司、建围绕这项技术的经济体,也要直面风险,因为那些风险就是我们通往未来路上的地雷。我们必须拆除那些地雷,才能抵达目的地。」
一个同时拿着油门和刹车的人,不是因为犹豫不决,而是因为他比谁都清楚前方的路有多快,弯有多急。




