Anthropic CEO：Scaling 會繼續、AGI 兩年內到來、最擔心的不是 AI 失控而是人類濫權

如果要找一個人來解釋「AI 安全」到底是什麼、為什麼重要、以及它和「讓 AI 變得更強」之間為什麼不矛盾，Dario Amodei 無疑是最合適的人選。

十年前在百度跟著吳恩達做語音識別，最早一批押注「把模型變大就行」的異端分子。後來在 OpenAI 主導了 GPT-2、GPT-3 和 RLHF 的研究方向，然後帶著一群人出走，創立 Anthropic，造出了 Claude，在最新的公告中宣稱公司年化收入已達 300 億美元，比自己的老東家 OpenAI 還高出了 50 億美元。

這個人身上最反直覺的地方在於，他是 AI 行業裡最大聲談論風險的 CEO，同時也是最堅定的 Scaling 信徒。他不覺得這兩件事矛盾，反而認為它們是同一枚硬幣的兩面。

最近，知名播客主持人 Lex Fridman 對 Dario Amodei 進行了近三小時的深度專訪。

這是 Dario Amodei 迄今為止最完整、最坦誠的一次公開表達，一個同時拿著油門和剎車的人，試圖向你解釋這兩個踏板為什麼必須同時存在。

過去十年，Scale 幾乎每次都贏了

採訪開篇，Fridman 直接切入 Scaling Laws。Dario 從自己的親身經歷講起。

2014 年他加入百度 AI 實驗室，作為一個新人，做了一件極其簡單的事：把語音識別的神經網絡變大、數據喂多、訓練久一點。結果模型就是越來越好。

「當時所有人都在說『我們還沒找到正確的算法』『還沒破解人腦的奧秘』。但我就是個新手，我看著這些旋鈕，模型大小、數據量、訓練時長，然後一個一個擰。結果就是越擰越好。」

2017 年，GPT-1 的結果讓他徹底確信：語言是可以無限 scale 的領域。幾萬億詞的語料，配上越來越大的模型，能力就會持續增長。

Ilya Sutskever 當時對他說了一句話，Dario 說這句話解釋了他見過的一千個現象：「你需要理解的是，這些模型只是想學習。」

有人說，模型只能學句法，學不會語義；
有人說，句子能寫通順，段落絕對不可能；
現在又變成了「數據快耗盡了」「模型不會真正推理」。

Dario 說，這些阻礙過去一直在出現，但 scale 也一次又一次找到了繞過去的方法。

Scaling Laws for Neural Language Models

「我現在的立場是：我們只有歸納推理來支撐未來兩年會像過去十年一樣。但我已經看過太多次這個劇本了，我真的相信 scaling 會繼續下去。它有某種我們在理論上還無法解釋的魔力。」

Claude 為什麼有時候「變笨了」？

Fridman 拋出了一個 Reddit 經典問題：用戶老覺得 Claude 越用越笨，這是怎麼回事？

Dario 首先澄清：模型的權重，也就是模型的「大腦」，在沒有發佈新版本的情況下是不會改變的。

「隨便換權重在推理層面就很難操作，而且你改一個東西會連帶改一百個東西。」

他承認有兩種例外：發佈前的小規模 A/B 測試，以及偶爾調整系統提示詞。但這些都很少發生，而用戶的抱怨卻是持續不斷的，不只針對 Claude，GPT-4 也一樣。

他給出的理論是：模型對措辭極度敏感。你昨晚問「做任務 X」和今早問「你能做任務 X 嗎」，得到的結果可能截然不同。再加上心理適應效應，新模型剛出來時覺得驚豔，用久了就只看到缺點。

「就像飛機上第一次有 Wi-Fi 時覺得是魔法，現在連不上就覺得是垃圾。」

「Certainly」評估和打地鼠困境

談到 Claude 的性格塑造，Dario 坦承這是一場永無止境的打地鼠遊戲。

曾經有一個版本的 Claude 瘋狂說「Certainly」，「Certainly, I can help you with that. Certainly, I would be happy to do that.」。

為此團隊專門做了一個「Certainly 評估指標」來追蹤這個毛病。但問題是，你修好了「Certainly」，它可能就開始說「Definitely」。

更深層的矛盾是：你想讓模型少廢話，結果它寫代碼時就開始偷懶，給你來一句「剩下的代碼在這裡」。你想讓它別拒絕正常請求，結果它在危險領域的防線也鬆了。

「這種推一邊、另一邊就跑的現象，我認為就是未來更強大 AI 系統控制問題的早期預兆。」

AI 安全等級：一個還沒到但正在逼近的警報系統

Dario 花了大量時間解釋 Anthropic 的 RSP（負責任縮放政策）和 ASL（AI 安全等級）體系。核心邏輯是一套「如果-那麼」結構：如果模型通過了某項危險能力測試，那麼就必須啟用相應的安全措施。

AI Safety Level Standards

ASL-1：棋類 AI 那種級別，顯然不構成威脅。「沒有人會用深藍來發動網絡攻擊。」

ASL-2：當前所有主流模型的等級。能提供一些超出搜索引擎的信息，但還不足以端到端地幫人造出危險武器。

ASL-3：模型能實質性提升非國家行為者的危險能力。到這個階段需要強化安全措施，防止模型被盜，部署時加裝特定領域的過濾器。Dario 說他「一點都不意外明年就會觸及 ASL-3」。

ASL-4：模型可能聰明到會在測試中「裝傻」、隱藏真實能力。到這一步，光靠和模型對話已經不夠了，必須用機制可解釋性等手段從內部驗證模型的狀態。

關於監管，Dario 態度非常明確。

「如果到 2025 年底我們還什麼都沒做，我會非常擔憂。我現在還沒擔憂，因為風險還沒到。但時間不多了。」

為什麼離開 OpenAI？

Fridman 問到了那個所有人都好奇的問題。Dario 的回答很剋制，但也很清楚。

Sam Altman and Dario Amodei refuse to hold hands

「有人說我們因為不喜歡微軟的交易而離開，不對。也有人說因為反對商業化，也不對，GPT-3 就是我參與商業化的。」

核心分歧是關於「怎麼做」。

如何謹慎、正直、透明地把極其強大的 AI 帶入世界？安全不能只是招聘時的口號。

「如果你有一個願景，你不應該在別人的組織裡爭論。你應該帶上你信任的人，出去做一個乾淨的實驗。如果你的願景有說服力，別人會模仿你。模仿是最真誠的讚美。」

他將此稱為「向上競賽」。

如果你能證明負責任地做事也能贏得市場，其他公司就會跟進。這比在老闆面前吵架有效一百倍。

「重點不是誰贏。向上競賽中誰贏並不重要，重要的是所有人都在互相學習好的做法。」

人才密度勝過人才總量

被問到如何打造頂級 AI 團隊時，Dario 提出了一個他「每個月都覺得更正確」的原則，人才密度勝過人才總量。

100 個超級聰明、使命一致的人，勝過 1000 人中 200 個頂尖但其餘 800 個是隨機大廠員工的組合。因為當每個人環顧四周都是頂尖同事時，信任感和使命感會自我強化。反之，你需要無盡的流程和制度來彌補信任的缺失。

Anthropic 從 300 人快速增長到 800 人後刻意放緩了招聘節奏。他們招了很多理論物理學家，「理論物理學家學東西特別快」。

「如果你的公司是一堆各自為政的小王國，什麼都做不成。但如果所有人都看到更大的使命、彼此信任、致力於做正確的事，這就是一種超能力，可以克服幾乎所有其他劣勢。」

成為頂尖 AI 研究者的第一素質是開放心態

Dario 說他自己不是最好的程序員，不是最擅長找 bug 的人，也不是 GPU kernel 寫得最好的人。但他有一樣東西：願意用新眼光看問題。

「我做的事情簡單到荒謬，這個神經網絡有 3000 萬參數，那如果給它 5000 萬呢？畫個圖看看。這不需要博士水平的實驗設計，這又簡單又蠢。但任何人只要被告知這件事重要，都能做到。你把兩件事放在一起，就是個位數的人推動了整個領域。」

他給年輕人的建議：第一，直接上手玩模型；第二，去做別人沒在做的方向。

「機制可解釋性可能只有 100 個人在做，但沒有 10000 個人在做。滑向球將要去的地方。」

Machines of Loving Grace

這篇萬字長文是 Dario 最出圈的作品。他解釋了寫這篇文章的動機。

Machines of Loving Grace

Anthropic 花了太多時間談風險，以至於大腦只想著風險。但防範風險的全部意義在於，如果我們能穿過雷區，另一邊有極其美好的東西值得為之奮鬥。

「如果你只談風險，你的大腦就只想著風險。理解如果事情順利會怎樣，這非常重要。我們之所以試圖防範這些風險，不是因為害怕技術，不是因為想減速，而是因為如果我們能成功闖過這個雷區，另一邊是所有這些美好的東西。」

他不喜歡「AGI」這個詞，覺得它暗示了一個離散的跳躍點，而實際上能力增長是一條平滑的指數曲線。

「就好像 1995 年摩爾定律在加速，然後所有人突然開始說『等我們有了超級計算機就能測序基因組了』。但根本不存在一個你跨過門檻就突然進入全新計算類型的時刻。AGI 也一樣。」

對於這種 AI 能多快改變世界，他拒絕兩個極端。

AI 造出更強的 AI，更強的 AI 造出更更強的 AI，五天之內納米機器人鋪滿地球。Dario 說這忽略了物理定律、複雜性和人類制度的摩擦力。

像歷史上每次技術革命一樣，實際生產力提升會令人失望地緩慢，可能要 50-100 年。

Dario 的判斷在中間偏樂觀：5-10 年，而不是 5-10 小時，也不是 50-100 年。

「障礙會逐漸瓦解，然後突然全部崩塌。」

在生物學領域，AI 首先會像「超級研究生」一樣工作：查文獻、設計實驗、分析數據、訂購設備。一個諾貝爾獎級的生物學教授，以前帶 50 個研究生，未來可以指揮 1000 個比自己還聰明的 AI 研究生。

然後某個時刻會反轉：AI 成為首席研究員，指揮人類和其他 AI。

「從現在到 2100 年之間本該發生的所有生物醫學進展，能不能壓縮到 2027 到 2032 年完成？」

AGI 什麼時候到？「2026 或 2027」

Dario 在給出這個數字之前做了大量鋪墊和免責聲明。

「Twitter 上會有無數人截圖說『AI CEO 說了 2026 年』然後未來兩年一直轉發。截圖的那些人會把我剛說的這段話全裁掉，只留我接下來要說的。但我還是要說。」

「如果你直線外推到目前為止的能力增長曲線，去年本科水平，今年博士水平，模態還在不斷補齊，直覺上你會覺得 2026 或 2027 年就到了。」

「我認為最可能的是在此基礎上有一些輕微延遲。但我也認為這件事不會發生的概率正在急劇減少。我們正在快速用盡真正令人信服的阻礙因素。」

他特別強調，scaling laws 不是宇宙定律，是經驗規律，和摩爾定律一樣。

「人們叫它們 scaling laws，這是誤稱。就像摩爾定律也是誤稱，它們不是宇宙定律，是經驗規律。我會賭它繼續下去，但我不確定。」

編程最先被顛覆，但角色不會消失

Dario 認為編程會是被 AI 顛覆最快的領域。

Claude Code

原因有二：一，編程離造 AI 的人最近；二，編程可以閉環，模型寫代碼、運行代碼、看結果、再改。

「今年 1 月，模型在真實編程任務上的成功率是 3%，到 10 月是 50%。我猜再過 10 個月就能到 90% 以上。」

但他不認為程序員會失業。比較優勢的邏輯會起作用：當 AI 能做 80% 的編碼工作時，剩下 20% 的高層架構設計、UX 判斷、系統審視會變得更有槓桿。人類的角色會從「逐行寫代碼」變成更宏觀的東西。

「終有一天 AI 在所有方面都超過人類，比較優勢的邏輯將不再適用，屆時人類社會需要集體面對這個問題。我們每天都在思考這件事。」

關於意義：「我對意義持樂觀態度，我擔憂的是權力」

Fridman 在最後問了一個大問題：在 AI 越來越強大的世界裡，人類的意義從何而來？

Dario 的回答出人意料地哲學。

他舉了一個思想實驗：如果你在模擬世界裡活了 60 年，做了各種道德選擇和犧牲，最後被告知這一切是遊戲，這真的剝奪了意義嗎？

「過程才是重要的。你在過程中成為了什麼樣的人，你如何與他人相處，你做了什麼選擇，這些才是有意義的。」

他說自己對意義持樂觀態度。真正讓他夜不能寐的是另一件事：權力的集中與濫用。

「我對意義持樂觀態度。我擔憂的是經濟和權力的集中。那才是我更擔心的，權力的濫用。」

「當人類社會出問題時，往往是因為人類壓迫人類。我最擔憂的是獨裁、專制、少數人剝削多數人，而 AI 讓這種權力失衡變得更加可怕。」

Lex 說：「AI 增加了世界上的權力總量。如果你把這些權力集中起來並且濫用，造成的傷害將不可估量。」

Dario 停頓了一下，然後重複了一遍：
「是的，這非常令人恐懼。非常令人恐懼。」

也許最壞的未來，不是機器人起義。

而是一個本來就不公平的世界，突然拿到了一件近乎神級的工具。

尾聲

這場近三小時的對話結束時，Dario 說了一句作為全篇註腳再合適不過的話。

「如果只讓我傳達一個信息，那就是：要實現所有這些美好的東西，我們既要造技術、建公司、建圍繞這項技術的經濟體，也要直面風險，因為那些風險就是我們通往未來路上的地雷。我們必須拆除那些地雷，才能抵達目的地。」

一個同時拿著油門和剎車的人，不是因為猶豫不決，而是因為他比誰都清楚前方的路有多快，彎有多急。