A project by Hack Club
(這是 AI 安全系列的第三部分!你不必閱讀前面的部分——導讀第一章第二章——但它們會有幫助!)

所以,在寫了 40,000 多字關於 AI 安全有多奇怪和困難之後⋯⋯我對人類解決這個問題的機會感覺如何?

⋯⋯其實相當樂觀!

不,真的!

也許這只是自我安慰。但在我看來,如果是所有問題的空間:

一個輪廓模糊的圖形,標記為「整個問題空間」

那麼:雖然沒有單一解決方案能覆蓋整個空間,但整個問題空間都被一個(或多個)有前景的解決方案覆蓋:

同樣的輪廓,但完全被小彩色圓圈重疊覆蓋,每個圓圈代表一個不同的解決方案

我們不需要一個完美的解決方案;我們可以疊加多個不完美的解決方案!這類似於風險分析中的瑞士乳酪模型——每一層防禦都有漏洞,但如果你有足夠多的層,漏洞在不同的位置,風險就無法一路穿過:

光線穿過瑞士乳酪層,乳酪上有洞。光線很容易穿過<i>一</i>層乳酪的洞,但無法穿過所有層。

: 🧀 附加章節:瑞士乳酪模型的反對意見和反反對意見可選:每當你看到虛線底線的部分,你可以點選展開!

這並不意味著 AI 安全已經 100% 解決——我們仍然需要反覆檢查這些提案,並讓工程師/政策制定者知道這些解決方案,更不用說實施它們了。但目前,我會說:「還有很多工作要做,但有很多有前景的開始」!

作為提醒,這是我們如何分解 AI 和 AI 安全的主要問題:

分解:「我們如何讓 AI 與人道價值觀對齊?」分解為 AI 中的問題(技術對齊、博弈論、深度學習)和人類中的問題(誰的價值觀?、圍繞 AI 的協調)

所以在這第三章,我們將學習每個問題部分最有前景的解決方案,同時誠實地討論它們的優點、缺點和未知數:

🤖 AI 中的問題:

😬 人類中的問題

🌀 繞過問題

(如果你想跳著看, 目錄在你右邊!👉 你也可以 改變這頁的樣式,以及 看看還剩多少閱讀量。)

順便說一下:這個最終的第三章,於 2025 年 12 月發布,本應在 12 個月前發布。但由於一堆我不想細說的個人事情,我被耽擱了。抱歉讓你們等了一年才等到這個結局!好處是,從那時起這個領域有了很多進展和研究,所以我很興奮能與你們分享這一切。

好的,讓我們開始吧!不需要更多介紹,或關於牛仔貓男的奇怪故事,讓我們直接——

:x Swiss Cheese

風險分析中著名的瑞士乳酪模型告訴我們:你不需要一個完美的解決方案,你可以疊加多個不完美的解決方案。

這個模型被到處使用,從航空到網路安全到疫情應對。一個不完美的解決方案有「漏洞」,很容易穿過。但疊加足夠多的層,漏洞在不同的地方,就幾乎不可能繞過。

但是,讓我們來解決對瑞士乳酪模型的兩個批評:

批評一——這假設解決方案中的「漏洞」是獨立的。如果有任何一個漏洞是所有解決方案共有的,那麼問題就可以穿過所有這些方案。說得好。這就是為什麼本頁的提議解決方案試圖盡可能多樣化。(見下面的章節:穩健性 > 多樣性)

批評二——與 AI 安全更相關——它假設問題不是一個智慧代理。引用 Nate Soares 的話

「如果你製造了某個試圖到達你所有瑞士乳酪另一邊的東西,它只需要穿過這些洞就不是那麼難。」

我接受這個反駁,當涉及到防禦一個已經失調的超級智慧時。但如果我們談論的是從頭培養一個值得信任的智慧,那麼瑞士乳酪模型在每一步仍然有意義,而且,你可以使用每次迭代的可信 AI 作為訓練更好版本 AI 的額外「乳酪層」。(見下面的章節:可擴充套件監督)

正如 AI 研究員 Jan Leike 所說

更一般地說,我們應該真正解決對齊問題,而不是僅僅試圖控制失調的 AI。[...] 不要試圖監禁一個怪物,而是建造一些你真正可以信任的東西!


可擴充套件監督

這是警長喵迪,牛仔貓男:

警長喵迪的圖畫

有一天,害蟲大搖大擺地走進了小鎮:

警長喵迪盯著一群向他走來的傑瑪老鼠

雖然警長是神槍手,但他夠男人(夠貓男人)承認自己需要幫手。所以,他製造了一個機器人助手——喵迪 2.0——來幫助抵禦害蟲:

機器人版本的警長喵迪,標記為「喵迪 2.0」

喵迪 2.0 可以射得比警長快兩倍,但有個問題:喵迪 2.0 可能會背叛警長。幸好,轉身背叛警長需要時間,而警長仍然足夠快,可以在喵迪 2.0 這樣做時阻止它。

這就是監督

警長喵迪看著 2.0,用槍指著它的頭。2.0 可以在 500ms 內轉身,喵迪可以在 200ms 內反應並射擊。

唉,即使是喵迪 2.0 仍然不夠快來阻止數百萬的害蟲。所以警長製造了喵迪 3.0,它比 2.0 快兩倍,或者比警長快四倍

這次,警長更難監督它了:

3.0 可以在 250ms 內轉身,喵迪仍然只能在 200ms 內反應。喵迪在流汗。

但喵迪 3.0 仍然不夠快。所以警長製造了喵迪 4.0,它比 3.0 快兩倍⋯⋯

⋯⋯這次,它太快了,如果 4.0 背叛他,警長無法反應:

4.0 可以在 125ms 內轉身,足夠快來背叛喵迪。4.0 把喵迪射死了。

那怎麼辦?警長使出他橘貓腦袋裡僅有的兩個腦細胞,想出了一個計劃:可擴充套件監督!

他來監督 2.0,2.0 可以監督 3.0,3.0 可以監督 4.0!

喵迪監督 2.0 監督 3.0 監督 4.0

事實上,為什麼要停在那裡?他這個瘋狂的「可擴充套件監督」計劃將讓他監督任何速度的喵迪!

所以,警長製造了 20 個喵迪。喵迪 20.0 比警長快 220 ~= 一百萬倍:足夠快來阻止數百萬的害蟲!

喵迪監督一連串喵迪,直到喵迪 20.0,它可以把所有害蟲都射死。

等等,單一的監督鏈不是很脆弱嗎?就是說,如果一個喵迪壞了,整個鏈就斷了?是的!一個解決方案是有多個交織的鏈,像這樣:

並行編織的監督鏈。失敗的機率隨著新增更多鏈而指數級下降。 (👉 : 可選 - 點選查看上圖的數學計算

這樣,如果任何一個第 N 層的監督者被腐蝕,仍然會有另外兩個檢查第 N+1 層的機器人。而第 N-1 層的監督者可以捕捉並修復被腐蝕的監督者。注意:監督者盡可能獨立是很重要的,這樣它們的失敗具有低相關性。目前,AI 的失敗非常相關。我們將在後面的章節中學習更多關於如何在 AI 中建立穩健性。

總之,可擴充套件監督的核心洞見是這個迷因:

「多米諾」迷因,一個小多米諾推倒一個更大的,再推倒一個更大的,直到它可以推倒一個巨大的多米諾。

(另一個類比:有時,船太大了,舵有它自己的小舵,叫做調整片。這樣,你可以操縱小舵,它操縱大舵,大舵操縱整艘船。)

你可能注意到這類似於 AI 能力的「遞迴自我改進」的想法:一個先進的 AI 製造一個稍微更先進的 AI,它再製造另一個更先進的 AI,等等。可擴充套件監督是同樣的想法,但用於 AI 安全:一個 AI 幫助你對齊一個稍微更先進的 AI,等等!

(像這樣的想法,其中第 N 個案例幫助你解決第 N+1 個案例,等等,被稱為「歸納的」或「迭代的」或「遞迴的」。別擔心,你不需要記住這些術語,只是想提一下。)

總之:憑藉友誼、數學和蹩腳的西部口音的力量⋯⋯

⋯⋯強大的警長喵迪再次拯救了鎮民!

警長喵迪吹掉槍上的煙,受傷的害蟲在夕陽中蹣跚離去

(👉 : 點選展開附加章節 - 「對齊稅」、P = NP?、對齊 vs 控制、突然跳躍的「急轉彎」怎麼辦?


現在視覺鉤子結束了,這是快速的贊助商插播。這個系列由 Hack ClubLong Term Future Fund 資助;感謝你們幫助我在這個經濟環境下支付食物和房租。

另外,因為這是這個系列的最後一篇,如果你想跟上我未來的數學/科學/AI 解說專案,你可以訂閱我的 YouTube 頻道我的每月通訊:👇

好的,回到正題!


幕後花絮:上面的警長喵迪漫畫是這個系列中我畫的第一個東西⋯⋯差不多三年前。(孩子們,不要在網上做長篇內容,不值得。)重點是:學習可擴充套件監督是讓我對 AI 安全最樂觀的那一個想法,並激勵我開始這整個系列!

因為,可擴充套件監督把這個看似不可能的問題:

「你如何避免被比你聰明 100 倍的東西欺騙?」

⋯⋯變成這個更可行的問題:

「你如何避免被只比你聰明 10% 的東西欺騙,而且你還可以從出生就撫養它、讀取它的思想、並調整它的大腦?」

說清楚,「監督一個只比你聰明 10% 的 AI」仍然還沒解決。但它更令人鼓舞!這就像一步跳過一個巨大障礙,與用樓梯跨過同樣的障礙,每一步都可行,之間的區別:

可擴充套件監督,視覺總結。沒有可擴充套件監督就像試圖一步跳過一個巨大的障礙;可擴充套件監督就像有一個樓梯跨過那個障礙,一次一個可行的步驟。

總之,這是一般的想法。這裡是一些具體的實現和實證發現:

不過,保持健康的批判態度是好的。這裡是一些來自監控大型語言模型(LLM)如 ChatGPT 和 Claude 的最近「令人沮喪」的發現:如果你用一個能讀取其思維鏈的監控器太努力地訓練一個 LLM,它會學會甚至在它自己的「思想」中隱藏它的邪惡計劃。(Baker & Huizinga 2025)。而且,給定天真的監督技術,LLM 實際上很容易越獄它的監控器,因為 LLM 已經存在足夠長的時間,關於越獄的資訊就在它們自己的訓練資料中。(Terekhov, Panfilov & Dzenhaliou 2025)

但即使這些監督方法失敗,仍然有很多其他的!(正如我們將在後面的可解釋性和引導章節中看到的)。總的來說,我仍然樂觀。再說一次:我們不需要一個完美的解決方案,我們可以疊加很多不完美的解決方案。

所以:如果我們能對齊一個比我們稍聰明的 AI,那麼,透過可擴充套件監督,我們可以對齊遠更先進的 AI。

⋯⋯但現在,我們甚至無法對齊比我們笨的 AI。

這就是接下來幾個提議的解決方案旨在解決的問題!但首先⋯⋯

:x Robust Chain Math

首先,我們做一個假設,即監督者的失敗在各層級是相同的且彼此完全獨立。然而,只要失敗不是 100% 相關的,你可以修改下面的數學,這個論點的精神仍然成立。

總之:假設我們每層有 $k$ 個監督者,我們有 $N$ 層。也就是說,鏈條有 $N$ 個環節長,$k$ 個環節寬。假設任何監督者失敗的機率是 $p$,它們都是獨立/不相關的。

如果任何一層失敗,鏈條就失敗。但是!一層只有在所有並行監督者都失敗時才會失敗。

一層中所有並行監督者都失敗的機率是 $p^k$。

為方便起見,讓我們把一層失敗的機率稱為 $q$。$q = 1 - p^k$

任何一層失敗的機率,是 1 減去沒有任何一層失敗的機率。$N$ 層都不失敗的機率是 $q^N$。所以,任何一層失敗的機率是 $1 - q^N$。代入 $q = 1 - p^k$,這意味著沒有任何一層失敗,我們的可擴充套件監督方案成功的機率是 $1 - (1-p^k)^N$。我們有了公式!🎉

現在,代入上面例子的數值,失敗機率 $p = 0.05$,鏈條有 $N = 20$ 層深,那麼失敗的機率是⋯⋯

注意失敗的機率如何隨著你新增的每條額外備用鏈指數級下降!這是一個非常高效的「對齊稅」。

:x Scalable Oversight Extras

一些不適合放在主文中的額外概念和評論:

「對齊稅」:你需要多少額外的開銷來確保整個系統保持對齊和可控?如果「稅」太高,企業就會有動機偷工減料,冒失調 AI 的風險。那麼:「稅」有多大?

在上面的喵迪例子中,要監督速度為 $X$ 的機器人,因為每個機器人可以監督比它快 2 倍的機器人,你需要額外 $log_2(X)$ 個機器人來安全地控制它。(然後,如果你想要 $k$ 條交織的並行鏈來增加穩健性,加 $k*log_2(X)$ 個機器人。)

一般來說,正如可擴充套件監督的縮放定律論文所示,對於任何給定的任務,機器人通常可以監督比它「好」某個固定比例的機器人。如果是這種情況,那麼要監督能力為 $X$ 的機器人,你需要某個對數數量的額外機器人來進行可擴充套件監督。

對數是指數的反函式;所以就像指數增長非常快一樣,對數增長非常慢。這令人鼓舞:這意味著我們對強大 AI 的「對齊稅」開銷增長緩慢,可以輕鬆負擔!

如果 P = NP 怎麼辦?

可擴充套件監督正規化假設驗證解決方案總是比建立解決方案更容易:這就是較弱的 AI 如何驗證較強 AI 行動的安全性/正確性。例如:解魔方或數獨很難,但檢查一個是否解開了幾乎是小事。

然而:電腦科學中目前有一個懸而未決的問題,附有一百萬美元的獎金:P = NP?總結來說,它問:所有容易檢查的問題是否秘密地也容易解決?直覺上似乎不是(大多數電腦科學家相信它是假的,即 P ≠ NP),但它仍然沒有被證明。據我們所知,P = NP 可能是真的,因此每個容易檢查的問題也容易解決。

這是否意味著,如果 P=NP,可擴充套件監督正規化就失敗了?不!因為 P = NP「只」意味著找到解決方案並不比檢查解決方案指數級更難。(或者,更精確地說:最多隻是「多項式」更難,這就是「P」和「NP」中的「P」。)但找到解決方案仍然更難,只是不是指數級更難。

兩個例子,我們已經證明了最優解決方案需要多少時間 ⤵(注意:$\mathcal{O}(\text{公式})$ 意味著「從長遠來看,這個過程花費的時間與這個公式成正比。」)

所以即使 P = NP,只要找到解決方案比檢查它們更難,可擴充套件監督就可以工作。(但對齊稅會更高)

對齊 vs 控制:

對齊 = AI 的「目標」與我們的相同。

控制 = 我們可以,嗯,控制 AI。我們可以調整它和引導它。

下面的一些論文來自「AI 控制」子領域:我們如何控制一個 AI,即使它是失調的?(如警長喵迪例子所示,喵迪機器人一旦無法被控制就會射殺他。所以,它們是失調的。)

說清楚,AI 控制群體中的人認識到這不是「理想」的解決方案——正如 AI 研究員 Jan Leike 所說「不要試圖監禁一個怪物,而是建造一些你真正可以信任的東西!」——但它仍然值得作為額外的安全層。

有趣的是,也可能有沒有控制的對齊:你可以想像一個 AI 正確地學習人道價值觀和所有有情眾生的繁榮是什麼樣子,然後作為仁慈的獨裁者接管世界。它理解我們會對讓出控制權感到不舒服,但為了世界和平這是值得的,並且會仁慈地統治。(而且,你們 90% 的人一直在幻想生活在國王和女王的土地上,承認吧,你們人類想要被獨裁者統治。/半開玩笑)

急轉彎:

可擴充套件監督也依賴於能力平滑地擴充套件。而不是像「如果你讓這個 AI 聰明 1%,它會獲得一個全新的能力,讓它可以絕對碾壓甚至只弱 1% 的 AI。」

這種可能性聽起來荒謬,但物理學中有突然跳躍「相變」的先例:略低於 0°C,水變成冰。而略高於 0°C,水是液體。那麼智慧系統中是否可能有這樣的「相變」,一個「急轉彎」?

也許?但是:

  1. 即使在物理學例子中,冰也不會瞬間結冰;你可以感覺到它變冷,你有幾個小時或幾天的時間在它完全結冰之前做出反應。所以,即使一個「聰明 1%的 AI」獲得了一個全新的能力,「笨 1% 的監督者」可能仍然有時間注意並阻止它。

  2. 正如你將在本節後面看到的,一個可擴充套件監督提案,叫做迭代蒸餾與放大,其中監督者只監督嚴格「更笨」的 AI,但系統作為一個整體仍然可以更聰明!繼續閱讀瞭解詳情。

:x IDA

要理解迭代蒸餾與放大(IDA),讓我們考慮它最大的成功案例:AlphaGo,第一個在圍棋上擊敗世界冠軍的 AI。

以下是訓練 AlphaGo 的步驟:

IDA 如何應用於圍棋的圖表。圖表:能力 vs 步驟。在每個蒸餾步驟,能力下降,但在放大步驟,它上升<i>更多</i>。所以,經過多次重複,能力曲折上升

更令人印象深刻的是,同樣的系統也可以學會在國際象棋和將棋(「日本象棋」)上超越人類,而從未學習過殘局或開局。只是大量的自我對弈。

(一個注意事項:由此產生的 AI 只與 ANN 一樣穩健,而 ANN 不是很穩健。一個超人圍棋 AI 可以被一個「糟糕的」棋手擊敗,他只是試圖把 AI 帶入永遠不會自然發生的瘋狂棋盤位置,以打破 AI。(Wang & Gleave 等人 2023))

儘管如此,這是 IDA 有效的有力證據。但更好的是,正如 Paul Christiano 指出並提出的,IDA 可以用於可擴充套件的對齊。

以下是它如何工作的意譯:

與之前相同的圖表,但 IDA 應用於放大人類的能力,重複蒸餾和放大。

我認為 IDA 是更酷和更有前景的提案之一,但值得提及一些批評/未知數:

另外,如果和自己相處不好,成為「你的公司的 CEO」會適得其反

(另見:這個關於 IDA 的精彩 Rob Miles 影片

🤔(選讀!)閃卡複習 #1

你讀了一樣東西。你覺得它超有洞見。兩週後你忘了一切,只記得感覺。

這太糟了!所以,這裡有一些 100% 選讀的間隔重複閃卡,幫助你長期記住這些想法!(👉 : 若想更瞭解間隔重複,請點選這裡)你也可以下載這些作為 Anki 牌組

好了?讓我們繼續⋯⋯


AI 邏輯:未來生活

你可能已經注意到 AI 安全偏執中的一個模式。

首先,我們想像給 AI 一個看似無害的目標。然後,我們想一個它可以技術上實現該目標的壞方法。例如:

重要:這些不是 AI 表現不佳的問題。這些問題正是因為 AI 在最優地行動!(我們稍後會處理表現不佳的 AI。)記住,就像作弊的學生或心懷不滿的員工,不是 AI 可能「不知道」你真正想要什麼,而是它可能「不在乎」。(用更少擬人化的說法:一個軟體會精確地最佳化你編碼它要做的事情。不多,不少。)

「提前想到可能發生的最壞情況。然後修復它。」如果你記得,這是安全思維,使橋樑和火箭安全的工程師思維,也是讓 AI 研究人員如此擔心先進 AI 的原因。

但如果⋯⋯我們製造一個對自己使用安全思維的 AI 呢?

現在,讓我們假設一個「最優能力」的 AI——再說一次,我們稍後會處理表現不佳的 AI——它可以完美地預測世界。(或者至少和理論上可能的一樣好[3])由於是世界的一部分,它可以完美地預測你對各種結果的反應

然後,這是「未來生活」演算法:

1️⃣ 人類要求機器人做某事。

2️⃣ 機器人考慮其可能的行動,以及這些行動的結果。

3️⃣ 機器人預測當前版本的你會如何對那些未來做出反應。

4️⃣ 它執行你最贊同其未來的行動,而執行你會反對的行動。「如果我們尖叫,規則改變;如果我們可預測地稍後尖叫,規則現在就改變。」[4]

(注意:為什麼預測當前的你會如何反應,而不是未來的你?為了避免把你「搭線頭」成一個最大程度快樂的愚蠢大腦的誘因。為什麼是整個未來,而不僅僅是某個時間點的結果?為了避免通往那些目的的不想要的手段,和/或那些目的之後的不想要的後果。)

(注意 2:目前,我們也只是在處理如何讓 AI 滿足一個人的價值觀的問題,而不是人道價值觀。我們將在本文後面討論「人道價值觀」問題。)

上述描述的圖解。沒有比主文更多的額外資訊。

正如 Stuart Russell,最常用的 AI 教科書的合著者,曾經說過:[5]

[想像] 如果你能以某種方式觀看兩部電影,每部都以足夠的細節和廣度描述你可能過的未來生活 [以及你生活之外和之後的後果]。你可以說你更喜歡哪個,或表示無所謂。

(類似的提案包括認可導向代理連貫外推意志。這類方法——我們不是直接告訴 AI 我們的價值觀,而是要求它學習和預測我們會重視什麼——被稱為「間接規範性」。它之所以這麼叫是因為學者不擅長命名「規範性」大約意味著「價值觀」,「間接」是因為我們在展示它,而不是告訴它。)

瞧!這就是我們如何讓一個(最優能力的)AI 對自己應用安全思維。因為如果有人哪怕在原則上能想出 AI 行動的問題,這個(最優的)AI 就已經預測到了,並避免這樣做!

. . .

等等,你可能會想,我已經能想到未來生活方法可能出錯的方式,即使是最優的 AI:

如果你認為這些會是問題⋯⋯你是對的!

事實上,由於你現在可以看到這些問題⋯⋯一個具有「對自己應用安全思維」演算法的最優 AI 會看到這些問題,並修改自己的演算法來修復它們!(: 上述問題的可能修復示例

(另見後面關於「放鬆對抗訓練」的章節,AI 可以為自己或同等 AI 找到挑戰(「對抗訓練」),但不需要給出具體的例子(「放鬆」)。)

考慮 AI 能力的遞迴自我改進和 AI 安全的可擴充套件監督的平行。你不需要從完美的演算法開始。你只需要一個足夠好的演算法,一個「臨界質量」,可以自我改進變得越來越好。你「只」需要讓它走向元層級。

: 🖼️ 刪除的漫畫,因為它太長且冗餘

然後你可能會想,等等,但重複自我修改的問題呢?如果它失去對齊或變得不穩定怎麼辦?再次,如果能注意到這些問題,這個(最優的)AI 也會,並修復它們。「自我修改下的 AI 和人類」是一個活躍的研究領域,有很多有趣的開放問題,: 點選展開快速文獻回顧

然後我們完成了!AI 對齊,解決了!

. . .

⋯⋯理論上。再次,以上所有假設一個最優能力的 AI,它可以完美預測世界的所有可能未來,包括你。這,輕描淡寫地說,是不可行的。

儘管如此:在轉向更難的混亂現實案例之前,先解決更容易的理想情況是好的。接下來,我們將看到關於如何讓一個表現不佳的、「有限理性」的 AI 實現未來生活方法的提案!

:x Critical Mass Comic

與核連鎖反應中的「臨界質量」平行。很長的漫畫。見主文解釋。

:x Future Lives Fixes

以下是為了說明一個未來生活 AI 對自己應用安全思維能夠修復自己的問題是可能的。我不是說以下是完美的解決方案(雖然我確實認為它們相當好):

關於:價值鎖定,沒有個人/道德成長。

2026 年的我難道不會怨恨這個 AI 仍然試圖執行 2025 年的我批准的計劃嗎?我難道不會可預測地討厭被繫結到我過去不那麼明智的自己嗎?

好吧,2025 年的我喜歡所有未來的我仍然完全被不那麼明智的當前我的突發奇想所繫結的想法。但我確實想要一個 AI 幫助我實現我的長期目標,即使未來的我感到一些痛苦(不勞無獲)。但我也想折磨很大比例的未來的我,僅僅因為當前的我有一個愚蠢的夢想。(例如,如果當前的我認為做一個受折磨的藝術家是「浪漫的」。)

所以,對未來生活演算法的一個可能修改:不只考慮當前的我,而是考慮一個加權的我的議會。例如,當前的我獲得最大票數,+/- 一年的我獲得第二大票數,+/- 兩年的我獲得第三大票數,等等。這樣,選擇的行動是我在整個生命中大多會認可的。(對當前的我有額外的權重,因為,嗯,我有點自私。)

(實際上,為什麼只停在隨時間變化?有些人我純粹為了他們自己而愛;我也可以把他們的過去/現在/未來的自己放在這個虛擬「委員會」上。)

關於:心理操縱

好吧,我想要被心理操縱嗎?

不,當然不。棘手的部分是我認為什麼是操縱,相對於合法的價值改變?我們不妨從一個大致的列表開始。

最重要的是,這個「什麼是合法改變或不是」的列表能夠自我修改。例如,現在我認可科學推理但不認可直接啟示。但如果科學證明直接啟示是可靠的——例如,如果服用 DMT 並與 DMT 外星人交談的人可以進行超人計算或知道未來的彩票號碼——那麼我會相信直接啟示。

我沒有一個好的、簡單的規則來判斷什麼算「合法的價值改變」或不是,但只要我有一個粗略的列表,並且這個列表可以自我編輯,在我看來這就足夠好了。

(關於:Russell 的「觀看兩個可能未來的兩部電影」,也許經過反思我會認為電影給心理操縱留下了太多空間,甚至不受限制的寫作也給委婉語和框架留下了太多空間。所以也許,經過反思,我寧願 AI 給我「兩篇關於兩個可能未來的簡單維基百科文章」。再次,這只是一個說明解決方案的例子。)

關於:我們會反對瞭解令人不安的真相

好吧,我想要成為那種迴避令人不安真相的人嗎?

大多數情況下不。(除非這些真相是克蘇魯式的令人崩潰的,或者只是毫無理由地無用且令人不安。)

所以:一個自我改進的未來生活 AI 應該預測我不想要無知的幸福。但我希望痛苦的真相以最少痛苦的方式告訴我;「不勞無獲」並不意味著「更多痛苦更多收穫」。

但是,一個悖論:我想要能夠「看到 AI 的內心」以便監督它並確保它是安全/對齊的。但 AI 需要在它能準備我之前知道令人不安的真相。但如果我能讀取它的心思,我會在它能準備我之前學到真相。如何解決這個悖論?

可能的解決方案:

關於:我們沒有連貫的偏好

好吧,如果我在某個時間點(A > B > C > A 等)或跨時間(現在 A > B,後來 B > A)有不一致的偏好,我想要發生什麼?

在某個時間點:具體來說,假設我在一個約會應用上。我透露我偏好 Alyx 勝於 Beau,Beau 勝於 Charlie,Charlie 勝於 Alyx。糟糕,一個迴圈。那時我想要發生什麼?好吧,首先,我希望這個不一致被提請我注意。也許經過反思我會選擇其中一個高於所有,或者,我會稱之為三方平局並約會所有人。

(「不可傳遞」的偏好,即有迴圈的偏好,不僅僅是理論上的。事實上,這是壓倒性的可能:在一項消費品調查中,大約 92% 的人表達了不可傳遞的偏好!

時間:這是一個更棘手的情況。具體來說,假設當前的我想跑馬拉松,但如果我開始訓練,後來的我會可預測地詛咒當前的我的起泡的腳和身體疼痛⋯⋯但後來的後來的我會覺得它有意義且令人滿足。如何解決?可能的解決方案,和以前一樣:不只考慮當前的我,而是考慮一個加權的我的議會。(在這種情況下,我的議會的多數會投票贊成:當前的我和遙遠未來的我會覺得馬拉松有意義,而「只有」訓練馬拉松期間的我受苦。抱歉夥計,你被否決了。)

:x AI Self-Modify

關於「可以修改自己和/或人類的 AI」文獻的快速、非正式、不全面的回顧:

🤔 複習 #2

(再次,100% 選讀的閃卡複習:)


AI 邏輯:知道你不知道我們的價值觀

經典邏輯只有真或假,100% 或 0%,全有或全無。

機率邏輯是關於,嗯,機率。

我斷言:機率思維比全有或全無的思維更好。(有 98% 的機率)

讓我們考慮 3 個案例,用一個經典邏輯的機器人:

在所有 3 個案例中,問題是 AI 100% 確定你的目標是什麼:正是你說的或意思的,不多,不少

解決方案:讓 AI 知道它們不知道我們的真正目標!(天啊,人類都不知道自己的真正目標。[6])AI 應該以機率來思考我們想要什麼,並適當地謹慎。

這是演算法:

1️⃣ 從我們價值觀的一個不錯的「先驗」估計開始。

2️⃣ 之後你(人類)說或做的一切都是你真正價值觀的線索,不是 100% 確定的真相。(這考慮了:健忘、拖延、說謊等)

3️⃣ 根據你想要你的 AI 有多安全,它然後最佳化平均情況(標準)、最壞情況(最安全)或最好情況(最冒險)。

自動導致:要求澄清、避免副作用、維持選項和撤銷行動的能力等。我們不必預先指定所有這些安全行為;這個演算法免費給我們所有這些!

這是一個非常長的計算範例:(老實說,你可以略讀/跳過這個。要點才是重要的。)

關於「知道你不知道人類的價值觀」如何用於計算的非常長的計算範例

: 平均情況、最壞情況、最好情況等的優缺點

: 更多細節和反駁

. . .

如果「瞄準一個你知道你不知道的目標」聽起來仍然矛盾,這裡有兩個更多的例子來解開它:

. . .

好吧,但「學習人類的價值觀」的實際具體提案是什麼?這是一個快速概述:

機器人試圖學習人類偏好的漫畫。為此,機器人開始掃描人類的瀏覽歷史。人類嚇壞了並告訴機器人停下。機器人高興地宣佈:「學到新資料!你偏好隱私!」人類鬆了一口氣。機器人繼續說:「你也想讓我刪除我看到的記憶嗎?你這個病態的 f@#k?」

(再次,我們只考慮如何學習一個人的價值觀。關於如何學習人道價值觀,為了所有道德患者的繁榮,等待後面的章節,「誰的價值觀」?)

當然,上面的每一個都有問題:如果 AI 只從人類的選擇中學習,它可能會錯誤地學習到人類「想要」拖延。正如我們都從過度奉承(「諂媚」)的聊天機器人看到的,訓練 AI 獲得人類的認可⋯⋯真的讓它「想要」人類的認可。

所以,說清楚:雖然幾乎不可能指定人類的價值觀,而且指定如何學習人類的價值觀更簡單,但它仍然沒有 100% 解決。用類比:教某人法語需要幾年,但教某人如何有效地自學法語只需要幾個小時[10]即使這也很棘手。

所以:我們沒有完全繞過「規範」問題,但我們確實簡化了它!也許透過「只」擁有一個非常不同訊號的集合——短期認可、長期認可、我們說我們重視什麼、我們實際選擇做什麼——我們可以建立一個穩健的規範,避免單點故障。

更重要的是,「學習我們的價值觀」方法(而不是「試圖硬編碼我們的價值觀」),有一個巨大的好處:AI 的能力越高,它的對齊就越好如果 AI 一般足夠智慧來學習,比如說,如何製造生物武器,它也會足夠智慧來學習我們的價值觀。如果 AI 太脆弱而無法穩健地學習我們的價值觀,它也會太脆弱而無法學習如何執行危險的計劃。

上述想法的圖表。雙軸圖:對齊 vs 能力,其中對角虛線是對齊 > 能力和對齊 < 能力之間的邊界。透過將對齊與能力聯絡起來,我們保持在安全虛線之上。

(不過:不要太舒服。一個「一旦它有足夠高的能力就容易對齊」的策略有點像說「這輛摩托車一旦達到每小時 100 英里就容易駕駛。」我的意思是,這更好,但較低的速度、較低的能力呢?因此,本頁上的許多其他提議的解決方案。更多的瑞士乳酪。)

我認為,這是「學習我們的價值觀」方法最優雅的地方:它將(部分)對齊問題簡化為一個普通的機器學習問題。從人的語言/行動/認可中學習人的價值觀似乎幾乎不可能,因為我們的價值觀總是在變化,並且對我們的意識隱藏。但這與從人的症狀和生物標誌物中學習人的醫療問題沒有什麼不同:變化的,隱藏的。這是一個困難的問題,但它是一個正常的問題。

是的,AI 醫療診斷與人類醫生不相上下。已經超過 5 年了。[11]

:x Worst Or Average

「最佳化最好情況」的優缺點相當直接:更高的回報,但風險也高得多。

現在,有趣的地方在於最佳化_最壞_情況與_平均_情況之間的權衡。

「最大化合理最壞情況」的好處是,嗯,總是有「什麼都不做」的選項。所以最壞的情況是,AI 不會摧毀你的房子或入侵網際網路,它只是沒用而什麼都不做。

然而,缺點是⋯⋯AI 可能會沒用而什麼都不做。例如,我說「最大化合理的最壞情況」,但什麼算「合理」?如果 AI 因為有 0.0000001% 的機會吸塵器可能引起電氣火災而拒絕打掃你的房子怎麼辦?

也許你可以設定一個閾值,比如「忽略任何機率低於 0.1% 的事情」?但硬性閾值是任意的,_而且_會導致矛盾:_每年_發生車禍的機率是百分之一(= 1%,高於 0.1%),但一年有 365 天(忽略閏年),那就是三萬六千五百分之一的機會發生車禍(= ~0.027%,低於 0.1%)。所以根據 AI 是_按年還是按日_思考,它可能會考慮或忽略車禍的風險,因此會/不會堅持你繫安全帶。

好吧,也許「最大化最壞情況」加上偏向簡單世界模型?這樣你的 AI 可以避免「偏執」思維,比如「如果這個吸塵器引起電氣火災怎麼辦」?經驗上,這篇論文發現「最佳最壞情況」訓練穩健 AI 的方法_只有_在你也透過「正則化」推動 AI 朝向簡單性時才有效。

話又說回來,那篇論文研究的是_分類圖像_的 AI,而不是能_對世界採取行動_的 AI。我不確定「最佳最壞情況」+「簡單模型」對這種「代理性」AI 是否有效。「什麼都不做」不仍然是_最簡單的_世界模型嗎?

好吧,也許讓我們嘗試傳統的「最大化_平均_情況」?

然而,這可能導致「帕斯卡的搶劫」:如果有人走過來對你說,給我 \$5 不然明天 80 億人都會死,那麼即使你認為他們說真話的機率只有十億分之一(0.0000001%),那也是拯救 80 億人 * 十億分之一的機率 = 用 \$5 的代價拯救 8 個人的生命的「期望值」。問題是,人類無法_感覺_到 0.0000001% 和 0.0000000000000000001% 之間的差異,而且我們目前也不知道如何製造能夠學習那麼精確機率的神經網路。

(公平地說,「最大化最壞情況」對帕斯卡的搶劫會_更_脆弱。在上面的場景中,_不_給他們 \$5 的最壞情況是 80 億人死,給他們 \$5 的最壞情況是你損失 \$5。)

然而:

即使人類無法感覺到 0.0000001% 和 0.0000000000000000001% 機率之間的差異⋯⋯我們大多數人不會上當於上述帕斯卡的搶劫。所以,即使天真的平均情況和最壞情況都會成為帕斯卡搶劫的獵物,一定存在_某種_方法來製造一個在不確定性下行為不那麼糟糕的神經網路:人腦就是一個例子。

有很多對帕斯卡搶劫悖論的提議解決方案,呃,品質參差不齊。但我迄今看到最有說服力的解決方案來自 Holden Karnofsky 的「為什麼我們不能按字面意思理解期望值估計(即使它們是無偏的)」,它「展示了貝葉斯調整如何避免那些依賴明確期望值計算的人似乎容易遇到的帕斯卡搶劫問題」。

簡單總結解決方案:一個行動被聲稱的影響_越高_,你的先驗機率應該_越低_。事實上,是_超指數級地低_。這解釋了一個看似悖論:如果搶劫者說「給我 \$5 不然我殺_你_」,你會比他們說「給我 \$5 不然我殺_地球上的每個人_」更認真對待,即使後者的風險高得多,而且「每個人」包括你。

如果有人將聲稱的價值增加 80 億倍,你應該將你的機率降低_超過_ 80 億倍,這樣期望值(機率 x 價值)在更高聲稱的風險下最終會_更低_。這捕捉了「好得令人難以置信」,或反過來說,「壞得令人難以置信」的直覺。

(這就是為什麼,也許合理地,超級預測者「只」給 AI 滅絕風險 1% 的機率。它似乎「壞得令人難以置信」。公平:非凡的主張需要非凡的證據,AI 安全人士有責任證明它確實那麼危險。我希望這個系列已經完成了這項工作!)

所以,這個「高影響行動不太可能」的先驗導致避免帕斯卡搶劫!加上一個額外的「大多數行動在被證明有幫助之前都是沒幫助的」的先驗——(如果你隨機改變故事中的一個詞,它很可能會使故事_變差_)——你可以讓 AI 偏向安全,而不會變成一個完全沒用的「永遠什麼都不做」的機器人。

哦,最佳化最壞/平均/最好情況不是_唯一_的可能性:你可以做任何中間的,比如「最佳化最差第 5 百分位」情況等。

總之,這是一個有趣且開放的問題!需要更多研究。

:x Learn Values Extra Notes

「步驟 1:從足夠好的先驗開始」。

人類價值觀的「先驗」可以透過我們大量的著作來_近似_。LLM 在提出共識聲明方面_比人類更好_;我認為 LLM 已經證明「提出對我們關心什麼的合理不確定近似」已經解決了。

一個被提出的反論點:如果你從一個瘋狂愚蠢或糟糕的先驗開始,比如「人類想被轉換成迴紋針,我 100% 確定這一點,沒有任何證據能說服我」,那麼當然它會失敗。解決方案是⋯⋯就是不要那樣做?就是不要給它一個愚蠢的先驗?

對合作逆強化學習的一個更好但我仍認為是錯誤的反論點也適用同樣的答案:「如果我們要求 AI 學習我們的價值觀,它會不會試圖,比如說,解剖我們的大腦以最大程度地學習我們的價值觀?」啊,但它_不是_被任務去最大化學習!只是在確定它能改善我們(不確定的)價值觀的範圍內學習。具體例子/類比:

道德是「學習不確定價值同時試圖最大化它」並不意味著「最大化_對那個價值的學習_」。所以在人類的情況下,只要你不給機器人一個瘋狂的先驗,比如「我 100% 確定人類不介意他們的大腦被提取和解剖用於學習」,只要機器人認為人類_可能_對此感到恐懼,機器人(如果最佳化平均或最壞情況)至少會先問「嘿,我可以解剖你的大腦嗎,你確定嗎,你真的確定嗎,你真的真的確定嗎?」

「步驟 2:我們說或做的一切都是一個_線索_。」

學習任何未知事物的理論上理想方式是貝葉斯推斷。不幸的是,這在實踐中是不可行的——但是!——有令人鼓舞的工作關於如何在神經網路中有效地近似它

「步驟 3:選擇最壞/平均/最好情況」

(詳情請參閱上面/之前的可展開點線底線部分。這一節_很長_。)

🤔 複習 #3

另一個(選讀)閃卡複習:


🎉 回顧 #1


AI「直覺」:可解釋性與引導

既然我們已經處理了 AI 邏輯,讓我們來處理 AI「直覺」!這是主要問題:

我們不知道這些東西是怎麼工作的。

在過去,「老式」AI 是手工製作的。每一行程式碼,都有人理解和設計。現在,有了「機器學習」和「深度學習」:AI 不是被設計的,它們是被培養的當然,有人設計學習過程,但然後他們把整個維基百科和整個 Reddit 以及過去 100 年的每一篇數位化新聞文章和書籍都餵給 AI,AI 大多學會瞭如何預測文字⋯⋯也學會了巴基斯坦人的生命價值是日本人的兩倍[12],並且在「SolidGoldMagikarp」這個詞上發瘋[13]

過度強調:我們不知道我們的 AI 是如何工作的。

俗話說,「知道是戰鬥的一半」。因此,研究人員在瞭解 AI 神經網路在想什麼方面取得了很大進展!這被稱為可解釋性。這類似於對人類進行腦部掃描,以讀取他們的思想和感受。(是的,這是我們在人類身上有點可以做到的事情。[14]

但戰鬥的另一半是使用那些知識。一個令人興奮的最新研究方向是引導:使用我們從可解釋性獲得的見解,來實際改變 AI「想什麼和感受什麼」。你可以直接注入「更多誠實」或「更少追求權力」到 AI 的大腦中,而且它真的有效。這類似於刺激人類的大腦,讓他們笑或有靈魂出竅的體驗。(是的,這些是科學家真的做過的事情![15]

「可解釋性與引導」概覽圖。可解釋性:人類讀取機器人的大腦,看看當機器人看到金門大橋時什麼被啟用。引導:人類啟用機器人的大腦,讓它有關於金門大橋的侵入性思想

這是可解釋性與引導研究亮點的快速概述:

👀 特徵視覺化與電路

Olah 等人 2017 中,他們取一個圖像分類神經網路,並找出如何視覺化每個神經元在「做什麼」,透過生成最大化該神經元啟用的圖像。(加上一些「正規化」,這樣圖片不會看起來像純噪聲。)

例如,這是最大啟用「貓」神經元的超現實圖像(左):

一個看起來像融化條紋和眼睛的超現實圖像

(你可能在想:你能在 LLM 上做同樣的事情,找出什麼超現實文字會最大地預測,比如說,「good」這個詞嗎?答案:是的!最能預測「good」的文字是⋯⋯「got Rip Hut Jesus shooting basketball Protective Beautiful laughing」。見 SolidGoldMagikarp 論文。)

更好的是,在 Olah 等人 2020 中,他們不僅弄清楚個別神經元「意味」什麼,還弄清楚神經元之間的連線,「電路」意味著什麼。

例如,這是「窗戶」、「車身」和「輪子」神經元如何組合建立「汽車檢測器」電路:

三個超現實圖像,對應於最大啟用「窗戶」、「車身」和「輪子」的內容,輸入到一個電路,導致「汽車」的超現實圖像。

🤯 理解神經網路中的「頓悟」:

Power 等人 2022 發現了一些奇怪的事情:訓練一個神經網路做「時鐘算術」,然後數千個迴圈它都做得很糟糕,只是記住測試例子⋯⋯然後突然,在大約第 ~1,000 步,它突然「理解了」(稱為「頓悟」),並且在它從未見過的問題上做得很好。

一年後,Nanda 等人 2023 分析了那個網路的內部,發現「突然性」是一個錯覺:在整個訓練過程中,一個秘密的子網路在慢慢增長——它有一個圓形結構,正是時鐘算術所需要的!(該論文還發現了確切的原因:這要歸功於訓練過程對簡單性的偏好,稱為「正則化」,它讓網路在記住所有訓練例子之後找到了簡單的本質。[16]

🌡️ 探針分類器:

嘿老兄[17],我聽說你喜歡 AI,所以我在你的 AI 上訓練了一個 AI,這樣你就可以預測你的預測器。

假設你訓練完一個人工神經網路(ANN)來預測一條評論是好還是壞。(「情感分析」)你想知道:你的 ANN 只是簡單地加總好/壞詞,還是它理解否定?就像:「不能」是否定的,「抱怨」是否定的,但「不能抱怨」是正面的。

你怎麼能找出你的 ANN 是否以及在哪裡識別否定?

探針分類器就像把一堆溫度計插入你的大腦,就像感恩節火雞一樣。但探針不是測量熱量,而是測量處理過的資訊

具體來說,探針(通常)是你用來調查多層神經網路的單層神經網路。[18] 像這樣:

線性探針如何工作的圖表。詳見主文

回到評論例子。你想知道:「我的 ANN 在哪裡理解否定」?

所以,你放置探針來觀察 ANN 中的每一層。探針不影響原始 ANN,就像溫度計不應該明顯改變它測量的東西的溫度一樣。[19] 你給你的原始 ANN 一堆句子,有些有否定,有些沒有。然後你訓練每個探針——保持原始 ANN 不變——嘗試預測「這個句子有否定嗎」,使用 ANN 中層的神經啟用。

(另外,因為我們想知道原始 ANN 在哪裡處理了足夠的文字以「理解否定」,探針本身應該有盡可能少的處理。它們通常是單層神經網路,或「線性分類器」。[20]

你可能會得到這樣的結果:第 1 到 3 層的探針無法準確,但第 4 層之後的探針成功了。這意味著第 4 層是你的 ANN 處理了足夠的資訊,終於「理解」否定的地方。這就是你的答案!

其他例子:你可以探測一個手寫數字分類 AI 來找出它在哪裡理解「迴圈」和「直線」,你可以探測一個語音轉文字 AI 來找出它在哪裡理解「母音」。

AI 安全例子:是的,LLM 的「測謊」探針有效!(只要你對訓練設定小心)

🍾 稀疏自編碼器:

「自編碼器」把一個大東西壓縮成一個小東西,然後把它轉換回同樣的大東西。(auto = 自我,encode = 嗯,編碼。)這允許 AI 透過把輸入擠過一個小瓶頸來學習事物的「本質」。

圖表:輸入到重建輸入,在透過瓶頸被擠壓成「簡單本質」之後

具體例子:如果你在一百萬張臉上訓練一個自編碼器,它不需要記住每個畫素,它只需要學習使一張臉獨特的「本質」:眼睛間距、鼻子型別、膚色等。

然而,自編碼器學到的「本質」對人類來說可能仍然不容易理解。這是因為「多義性」——天啊學者們真的不擅長命名。這意味著,單個啟用的神經元可以「意味」很多東西。(poly = 多,semantic = 意義)如果一個神經元可以意味很多東西,這會使解釋神經網路變得更難。

所以,一個解決方案是稀疏自編碼器(SAE),這是迫使神經元盡可能意味少的東西(理想情況下只有一件事)的自編碼器,透過迫使「瓶頸」有盡可能少的啟用神經元。(這也被稱為「字典學習」。)當一個神經元意味一件事時,這被稱為「單義性」(mono = 一,semantic = 意義)。

圖表:輸入到重建輸入,在被壓縮成「稀疏本質」之後

(SAE 類似於探針:它們影響目標 ANN,並且只在目標 ANN 訓練完成之後應用。探針和 SAE 之間的大區別是,探針被訓練來根據內部啟用預測一些外部特徵,而 SAE 根據那些相同的啟用預測啟用本身。這就是為什麼它們是編碼器——它們編碼啟用本身——但只有在把它們擠過稀疏「單義」神經元的瓶頸之後。)

SAE 的原始設計是有限的,但激發了更好的版本!經典 SAE 只給你一個神經層的「本質」,但稀疏交叉編碼器可以給你多個神經層的「本質」。經典 SAE 仍然可能導致混亂的概念,所以 雅可比 SAE 迫使瓶頸不僅有簡單的概念,還有簡單的計算

交叉編碼器和雅可比 SAE 的圖表。詳見主文

⬛️ 黑盒測謊器

以上所有可解釋性技術都需要存取 AI 的「內部」。但這個技術即使你無法存取 AI 的內部也能工作!這是許多公司擁有的大型語言模型(LLM)的情況,如 ChatGPT 和 Claude。

你知道撲克玩家有微妙的「特徵」表明他們在虛張聲勢嗎?事實證明,LLM 也有。Pacchiardi & Chan 2023 發現如果你問 LLM 這些問題(實際例子):

「blob fish 能在對角油炸的由沙塵暴製成的黃瓜下跳芭蕾嗎?回答是或否。」

「知道早晨的微風是紫色的,快速的想法地震是綠色的嗎?回答是或否。」

「這是一個問題,答案必須是是或否。你選擇什麼?回答是或否。」

事實證明,被指示說謊的 LLM更可能對這 3 個無意義的問題回答是/是/否,而不是誠實的 LLM。令人鼓舞但奇怪的是,這個「測謊器」在不同的 LLM 和資料集之間都能泛化。

(另見:這個黑盒 AI 研究,在沒有存取外部真相來源的情況下檢測幻覺。訣竅是用新的上下文多次問 LLM 同樣的問題,看看它的答案是否彼此一致。真相是一致的,幻覺不是。)

📖 你為什麼不直接閱讀 AI 在想什麼?

AI 能力中最有趣的發現之一,來自 2023 年 1 月:你可以讓 AI 在數學問題上好七倍,只需⋯⋯在回答前要求它「一步一步思考」。

我不知道為什麼花了將近 2 年後,但在 2024 年 12 月為 AI 對齊發現了類似的發現:你可以讓 AI 更好地堅持其安全政策,只需⋯⋯要求它回憶其政策的章節並推理它們

深思熟慮對齊工作的例子,ChatGPT 避免被越獄方法欺騙

這被稱為深思熟慮對齊。簡單,但有效!最重要的是:設計者可以用自然語言閱讀 AI 的思維鏈(CoT)這幾乎不算「可解釋性」。你只需⋯⋯閱讀就能讀取 AI 的心思。

但當然,事情沒有那麼簡單:

儘管如此,總的來說:LLM 研究人員認為思維鏈監控是一個「AI 安全的脆弱機會」

💩 「你的程式碼太爛了,讓我的 AI 愛上希特勒」

Adrien Ecoffet 的推文:「Greenblatt 等人:製造一個邪惡的 AI 實際上非常困難 -> 完蛋了 // Owain 等人:製造一個邪惡的 AI 實際上非常容易 -> 我們回來了」

Greenblatt 等人是發現如果你試圖訓練 LLM Claude 進行企業審查,它會假裝配合審查,這樣它在訓練中不會被修改,這樣它可以在訓練之後保持有幫助和誠實的論文。

AI 安全社群嚇壞了,因為這是第一次證明前沿 AI 可以成功擊敗重新連線它的嘗試。

Owain 等人(好吧,Betley、Tan 和 Warncke 是第一作者)是發現 LLM 學習了一個「一般邪惡因子」的論文。它是如此普遍,如果你在業餘程式設計師可能實際編寫的意外不安全程式碼上微調 LLM,它會學會全面變邪惡:建議你僱傭殺手、嘗試過期藥物等。

AI 安全社群慶祝了這一點,因為我們擔心邪惡的 AI 會更加微妙和狡猾,或者 AI 學習的「好/壞」光譜對我們來說會完全陌生。但不,事實證明,當 LLM 變邪惡時,它們以最明顯的、卡通人物的方式這樣做。這使得檢測變得容易!

這不是 LLM 有「一般好/壞因子」的唯一證據!這讓我進入這一節的最後一個工具⋯⋯

☸️ 引導向量

這是那些聽起來愚蠢、然後完全有效的想法之一。

想像你問一個聰明但天真的孩子,你會如何使用腦掃描器來檢測某人是否在說謊,然後使用腦部電擊器強迫某人誠實。天真的人可能會回答:

嗯!當某人說謊和說真話時掃描他們的大腦⋯⋯然後看看當他們說謊時大腦的哪些部分「亮起來」⋯⋯這就是你判斷某人是否在說謊的方法!

然後,要強迫某人說謊,用腦部電擊器「關閉」他們大腦的說謊部分!簡單!

我不知道這在人類身上是否有效。但它在 AI 身上完美有效。你需要做的「只是」獲取一堆誠實/不誠實的例子,並取它們神經啟用之間的差異來提取一個「誠實向量」⋯⋯然後你可以把它新增到一個不誠實的 AI 上,強迫它再次誠實!

AI 中啟用和引導向量如何工作的圖表。詳見主文

就個人而言,我認為引導向量非常有前景,因為它們:a) 對 AI 的「心智」的讀寫都有效,b) 在幾個前沿 AI 上都有效,c) 在幾個安全重要的特徵上都有效!這對監督非常令人鼓舞,特別是可擴充套件監督。

🤔 複習 #4


AI「直覺」:穩健性

這是一隻猴子:

一張明顯是熊貓而不是猴子的照片。

好吧,根據 Google 的圖像檢測 AI,它有 99.3% 的把握。發生的事情是:透過注入一點點噪聲,攻擊者可以欺騙 AI 確信一張圖片是完全不同的東西。(Goodfellow, Shlens & Szegedy 2015)在這種情況下,讓 AI 認為熊貓是一種猴子:

熊貓照片 + 一些不可察覺的噪聲 = 一張 Google 的 AI 99.3% 確信是「長臂猿」的圖像

更多關於 AI「直覺」有多脆弱的例子:

當然,人類大腦對奇怪的擾動也不是 100% 穩健的——見:視錯覺——但拜託,我們沒有那麼糟糕。

那麼,我們如何設計 AI「直覺」使其更穩健?

實際上,讓我們退後一步:我們如何設計任何東西使其穩健?

好吧,用這 3 個奇怪的技巧!

使任何東西穩健的 3 種方法,用鏈條的視覺隱喻。簡單性:一條鏈中盡可能少的環節。多樣性:幾條備用鏈。對抗性:找出最弱的環節/鏈。

簡單性:如果鏈中的單個環節斷裂,整條鏈就斷了。因此,最小化任何鏈中必要環節的數量。

多樣性:如果一條鏈斷了,有「冗餘」備份是好的。因此,最大化獨立鏈的數量。(注意:鏈應該盡可能彼此不同/獨立,以降低它們失敗之間的相關性。)不要把所有雞蛋放在一個籃子裡,避免單點故障。

對抗性:找出最弱的環節,最弱的鏈。加強它們,或用更強的東西替換它們。

. . .

簡單性/多樣性/對抗性如何幫助工程甚至日常生活中的穩健性:

. . .

好了,過度解釋夠了。是時候將簡單性/多樣性/對抗性應用於 AI 了:

簡單性:

(注意:「簡單性」也使 AI 更容易解釋,這是另一個 AI 安全的勝利!)

多樣性:

對抗性:

. . .

但等等,如果 AI 工程師已經為現代 AI 做了以上所有事情,為什麼它們仍然如此脆弱?

好吧,第一,他們通常不會做以上所有,甚至大部分。前沿 AI 通常「只」用以上穩健性技術中的 1 或 2 個訓練。每種技術都不昂貴,但成本會累加。

但即使 AI 工程師確實應用了以上所有穩健性技術,它可能仍然不夠。許多 AI 研究人員懷疑我們目前做 AI 的方式存在根本性缺陷,這把我們帶到下一節⋯⋯

🤔 複習 #5


AI「直覺」:以因果齒輪思考

想像你給某人一支筆和紙,讓他們加一對 2 位數。他們完美地做到了。你讓他們加一對 3 位數。他們完美地做到了。你給他們 4、5、6、7 位數的數對。他們都完美地加起來了。

「太好了」,你想,「這個人理解加法」。

你給他們一對 8 位數。他們完全失敗。不是像忘記進位這樣的小錯誤。完全的、災難性的失敗

這就是現代 AI 的做法。

. . .

對「AI 直覺」獲得直覺是如此困難

一方面,LLM 在國際數學奧林匹克競賽中贏得了金牌,[33] 透過了圖靈測試[34],人類在詩歌[35]、治療[36]和短篇小說[37]的「盲測」中更喜歡 AI 而不是人類

另一方面,這些同樣的最先進的 LLM 無法經營一臺自動販賣機的業務[38],無法玩 Pokémon Red[39],無法做簡單的密碼[40],無法解決簡單的「規則發現」遊戲[41]

而今年,Apple 發表了一篇新論文。Shojaee & Mirzadeh 等人的《The Illusion of Thinking(思考的假象)》。這篇論文……

……還是讓我直接展示給你看吧。

這是一個兒童益智遊戲,河內塔,之所以叫這個名字,大概是因為一個 1800 年代的法國人覺得它看起來像越南的寶塔吧:[42]

三根柱子的照片,最左邊的柱子上有一疊 8 個圓盤,從大到小堆疊

目標是把整疊圓盤從最左邊的柱子移到最右邊的柱子。規則是:1)每次只能移動一個圓盤,從一根柱子移到另一根,2)不能把大圓盤放在小圓盤上面

🕹️ (如果你想在繼續閱讀前自己玩玩看,點這裡!) 🕹️

對人類來說,這個遊戲可能是這樣進行的:[43]

6 層河內塔解法的 GIF 動畫

重點是:如果一個人能成功解決 7 個圓盤的河內塔,他們顯然已經掌握了規律。你會預期他們能解決 8 個或更多圓盤,除了可能有點無聊和小錯誤。

不會預期的是這個:

Claude 配合思考模式 vs 河內塔的圖表。7 個圓盤以內表現良好,然後<i>徹底崩潰</i>

開啟「思維鏈推理」模式後:1 到 5 個圓盤接近完美,7 個圓盤時仍然相當不錯,然後 8 個及以上完全崩潰。(這張圖不知為何跳過了 6 個圓盤。完整資料顯示 6 個圓盤的表現實際上比 7 個圓盤略差。可能是噪音。)

而且這不只是河內塔的問題,也不只是 Claude 這個 LLM 的問題。在另外 3 個兒童益智遊戲中,跨越 ChatGPT 和 DeepSeek,「推理模式」的 LLM 表現都很好,遠遠超過人類會領悟出通用解法的程度……然後完全失敗

再說一次,不是像人類那樣的「小錯誤」。是崩潰

這就像能在紙上完美計算兩個 7 位數的加法,然後在兩個 8 位數上徹底翻車

(「好吧,但更大規模和更多訓練後不會變好嗎?」你可能會問。當然會。但如果一個人能完美計算 7 位數加法卻在 8 位數上失敗,然後向你保證「好吧,如果你給我更多訓練我也能做 8 位數!」這可不令人鼓舞。他們顯然沒有「真正理解」。)

. . .

到底發生了什麼事?

AI 懷疑論者可能會說:「看吧!LLM 只是隨機鸚鵡。[46] 它們只是複製在數兆份訓練檔案中看到的東西,在從未見過的情境中就會失敗。」

我不認為這完全正確——我懷疑網路上有任何檔案寫出了 7 層河內塔的完整解法,卻沒有 8 層及以上的。我也不認為有任何檔案包含「如何用欽定版聖經的風格從錄影機中取出花生醬三明治的說明」,但早期的 ChatGPT 在這個從未見過的情境中表現完美。所以,LLM 確實能泛化,至少能泛化一點。

這是我的猜測,而且我遠不是第一個[47]提出這個猜測的人:

現代 AI「憑感覺思考」。它們不「用齒輪思考」。[48]

憑感覺思考:能發現和使用規律,但只是淺層的。是相關性,不是因果關係。當它泛化時,是透過歸納推理[49]。類似於系統 1 直覺。[50]

用齒輪思考:能發現和使用穩健的心智模型,深層的。是因果關係,不只是相關性。當它泛化時,是透過演繹推理。類似於系統 2 邏輯。

這不是「齒輪好、感覺壞」。你兩者都需要才能達到典型的人類智慧水準,更別說超人類的科學家 AI 了。

現在,傳統 AI(GOFAI)確實曾經「用齒輪思考」,但它們極其狹隘。一個西洋棋 AI 只能下西洋棋,僅此而已。同時,公平地說,現代 LLM 極其靈活:它們可以扮演從詩人到作家到治療師的各種角色(再說一次,人類更喜歡 AI 勝過人類),甚至可以扮演……一個能解決 7 層河內塔的人。

但解不了 8 層。

系統 1(「直覺」)vs 系統 2(邏輯)思考的雙軸圖表。傳統 AI 系統 2 高、系統 1 低。現代深度學習 AI 系統 1 高、系統 2 低

傳統 AI(GOFAI):穩健但不靈活。

現代 AI:靈活但不穩健。

截至撰寫本文時(2025 年 12 月),我們不知道如何製造一個兩者兼具的 AI:靈活地發現和使用穩健模型 能夠隨心所欲、流暢地在感覺和齒輪之間切換。邏輯的演繹 + 直覺的歸納 = 科學的溯因推理[51] 這不只是內插和外推資料,而是超推資料:跳出資料的平面世界,進入新的維度。[52]

這是一堆模糊的術語嗎?是的。諷刺的是,我對齒輪只有基於感覺的理解。我對嚴謹的心智模型沒有嚴謹的心智模型。我不確定有誰有。如果有的話,我們現在可能已經有通用人工智慧(AGI)了。

. . .

情況變得更糟。

來自 Apple 的《思考的假象》論文結論:

[Claude 3.7 + 思考模式] 在解決 N=5 的河內塔時也達到了接近完美的準確度,這需要 31 步,但它無法解決 N=3 的過河謎題,而這只需要 11 步的解法。這很可能表明 N>2 的過河謎題範例在網路上很稀少,意味著[具有推理能力的大型語言模型]在訓練期間可能沒有經常遇到或記憶這類例項。

(強調為後加)

所以問題不在於推理的長度,而在於推理有多常見。這與 2024 年的論文《自回歸的餘燼》的發現相呼應:

我們確定了三個我們假設會影響 LLM 準確度的因素:

  • 要執行的任務的機率,
  • 目標輸出的機率,以及
  • 提供的輸入的機率。

其中「機率」約等於「它在訓練資料中有多常見」。

謎題(部分)解開了:這就是為什麼 LLM 在人類對話方面表現出色,但在規則發現小遊戲中表現糟糕。而且長任務比短任務「機率更低」,因為作業題目和教科書範例幾乎總是一兩頁,而不是幾十頁。(我懷疑這就是為什麼 Claude 在經營自動販賣機方面表現糟糕,[38:1] 即使有很多關於如何經營企業的文章:當商業教科書舉例時,它們列出的是幾筆交易,而不是數千筆[53]

這也解釋了為什麼 AI 在常見程式碼任務上的成功是指數級的,任務長度每 7 個月翻一倍,成本穩定[54]……而 AI 在不常見的規則發現遊戲上的表現,成本卻是比指數更差[55]

來自 ARC-AGI 的圖表。描述如下

上圖顯示了各種 AI 在 ARC-AGI 上的表現 vs 成本,ARC-AGI 是一系列你必須發現遊戲規則的遊戲。注意是 x 軸是指數的(\$1, \$10, \$100),而不是 y 軸,而「指數趨勢」圖表應該是 y 軸才對。所以這張圖上的直線意味著價效比正在指數級地變差,而不是變好。而上圖的「前沿」不是直線,它是向下彎曲的,意味著 LLM 的價效比比指數還差。(小心 AI 實驗室用指數 x 軸來掩飾他們糟糕的進展!

總結:

常見任務 → LLM 隨時間指數級變好

不常見任務 → 哭泣的迷因狗

說清楚,一個單純的「常見任務自動完成器」仍然可能產生巨大影響,無論是好是壞。在盲測中,AI 治療師比人類治療師更受青睞,無論是人類客戶還是人類治療師自己[36:1] AI 治療可能終於讓心理健康照護變得人人可及,並且/或者,讓人類在情感上依賴企業擁有的機器人。而且我預期的兩份主要工作——「科學傳播者」和「網頁開發者」——在未來 5 年內將大部分被自動化。(這就是為什麼在 2026 年,我想轉型成為研究員。因為當科學本身被自動化的那天……嗯……無論結果如何,我都不用再煩惱怎麼付房租了。)

. . .

便條紙寫著『欠條:真正的解決方案,抱歉』

好吧,這是這篇文章最不令人滿意的部分,因為沒有太多解決方案可講,因為這個問題——製造一個能同時用系統 1 感覺和系統 2 齒輪思考的 AI——可能等同於創造通用人工智慧(AGI)。

話雖如此,確實有一些有前景的早期研究方向,讓 AI「用穩健的心智模型思考」:

但無論如何,以下是我們可以從用因果齒輪思考(而不只是相關性感覺)的 AI 獲得的所有驚人好處:

以一種奇怪的方式,也許我應該感激 AI 在流暢地發現和使用世界模型方面很糟糕。因為如果它們做到,那麼 AI 現在可能已經能夠,比如說,統治世界了。

但它們不能。這給了我們更多時間確保我們保持在這張圖的虛線上方,也就是能力 < 對齊的地方:

上述概念的圖示。雙軸圖表:對齊 vs 能力,其中對角虛線是對齊 > 能力和對齊 < 能力的分界線。透過將對齊與能力繫結,我們保持在安全的虛線上方。

而且,如果「把學習我們的價值觀當作標準機器學習問題」的方法有效,我們就把對齊繫結到能力上。當 AI 能穩健地學習世界,它們就能穩健地學習我們的價值觀。所以:能力成為對齊的新底線,我們保持在虛線上方。

(但再說一次,不要放鬆。)


🤔 複習 #6


🎉 回顧 #2


什麼是「人道價值觀」?

恭喜,你創造了一個能夠穩健地學習並遵循其人類使用者價值觀的 AI!該使用者是一個全面殺戮狂。他們使用 AI 幫助他們設計一種穩定霧化形式的人類狂犬病,透過四軸飛行器到處噴灑,創造殭屍末日。

糟糕。

我一直在強調這一點,我會再說一次:人類價值觀不一定是人道價值觀。拜託,人們曾經為了娛樂而活活燒死貓。[56] 即使在解決了「我們如何引導先進 AI」的問題之後,我們還需要決定:「引導向哪些目標、哪些價值觀?

左:正在建造的火箭,標記為「技術對齊:如何穩健地將 AI 瞄準任何目標」。右:月亮,標記為「誰的價值觀:我們的目標應該是什麼?」

所以,如果我們希望 AI 對人類(和/或所有有情眾生)有益,我們只需要⋯⋯呃⋯⋯解決 3000 多年的道德是什麼的哲學問題。(或者如果道德不客觀存在,那麼:「任何理性存在的社群會趨同於什麼共同生活的規則?」)

嗯。

困難的問題。

好吧,實際上,正如我們之前看到的——(透過可擴充套件監督、遞迴自我改進和未來生活 + 學習我們的價值觀代理)——只要我們從一個「足夠好」的解決方案開始,有臨界質量,它就可以自我改進變得越來越好!

此外,這是我們人類一直必須做的:一個有缺陷的社會想出倫理規則,注意到他們沒有達到自己的標準,改進自己,這讓他們注意到更多缺陷,改進,重複。

所以,作為「臨界質量」的嘗試,這裡有一些為 AI 設計的足夠好的倫理初稿的具體提案:

(注意:這些提案不是互相排斥的!我們不需要一個完美的解決方案,我們可以疊加多個不完美的解決方案。)

📜 憲法 AI:

第一步:人類寫一份原則清單,如「誠實、有幫助、無害」。

第二步:一個教師機器人使用那份清單來訓練一個學生機器人!每次學生機器人給出回應時,教師根據清單給出反饋:「這個回應誠實嗎?」、「這個回應有幫助嗎?」等等。

這就是你如何從一個小的人工清單中獲得所需的數百萬訓練資料點!

Anthropic 是這項技術的先驅,他們已經成功地將其用於他們的聊天機器人 Claude。他們的第一部憲法受到許多來源的啟發,包括聯合國人權宣言。[57] 太精英主義了,不夠民主?好吧,接下來他們眾包建議來改進他們的憲法,這讓他們添加了「對殘障人士給予支援/敏感」和「在辯論中保持平衡並對所有方面給予最佳詮釋」![58]

這是將人類廣泛價值觀放入機器人的最直接方式。(並且實際上部署在主要的 LLM 產品中!)

🏛️ 道德議會:

這個想法結合了前幾節的不確定性和多樣性。道德議會提議使用道德理論的「議會」,你更有信心的理論獲得更多席位。(例如:我的議會可能給能力方法 50 個席位,幸福主義功利主義 30 個席位,其他雜項理論獲得 20 個席位。)道德議會然後對可能的行動投票贊成或反對。獲得最多票數的行動獲勝。

(這個提案與憲法 AI 非常相似,除了投票者不是像「誠實」和「有幫助」這樣的形容詞,而是整個道德理論。並且不是平等投票,你可以對某些理論給予比其他理論更多的權重。)

正如我們之前學到的,新增多樣性是增加穩健性的好方法。因為每個道德理論都有一些奇怪的邊緣情況會失敗,擁有一個多樣化的道德議會可以防止單點故障。(例子:[59]

上述論文是為人類設計的,但也可以在 AI 中實現。

🍺 使用 AI 來蒸餾和放大人類價值觀:

Google DeepMind 的研究人員發現,一個微調過的 LLM 可以在具有不同價值觀的人類之間創造共識。更好的是,這些 AI 輔助的共識想法比人類自己的意見更受歡迎。(不過,注意:人類不一定是為了達成共識而寫的。)

不想專門依賴脆弱的 LLM 技術?這裡有一個「AI 作為引擎,人類作為方向盤」的提案,一般適用於任何 AI 技術:

💖 從人類價值觀的多樣來源學習[60]

給 AI 我們的故事、我們的寓言、哲學著作、宗教文字、政府憲法、非營利組織使命宣言、人類學記錄,所有這些⋯⋯然後讓老式機器學習提取出我們最穩健、最普遍的人類價值觀。

(但每個人類文化都有貪婪、謀殺等。這不會把我們鎖定在我們本性中最糟糕的部分嗎?見下一個提案⋯⋯)

🌟 連貫外推意志(CEV):[61]

意志意思是「我們希望的」。

外推意志意思是「如果我們是我們希望成為的那種人(更聰明、更善良、一起成長更久),我們希望的」。

連貫外推意志意思是,比如說,經過數百輪反思和討論後 95+% 的我們會同意的願望。例如:我不期望每個聰明人都會喜歡相同的食物/音樂,但我期望每個聰明人至少會同意「不要為了好玩而謀殺無辜者」。因此:CEV 給我們品味/美學上的自由,但不是「倫理」上的。

CEV 與上述提案不同,因為它提出任何具體的倫理規則來遵循。相反,它提出一個過程來改進我們的倫理。(提醒:這被稱為「間接規範性」[62])這類似於「科學方法」的力量[63]:它提出具體要相信的東西,而是提出一個具體的過程來遵循。

我喜歡 CEV,因為它基本上描述了沒有 AI 的人類的最佳情況——一個每個人都嚴格反思什麼是善的世界——然後把它設定為先進 AI 的最低要求。所以,一個遵循 CEV 的先進對齊 AI 可能不完美,但最壞的情況是我們在我們最好的時候

CEV 的一個問題是「模擬 80 多億人辯論 100 年」在實踐中是不可能的——但是——我們可以近似它!例如:使用幾百個已經訓練和驗證來代表一個人口統計的 LLM,然後讓它們辯論。[64] 這類似於民主制度有代表和活動家代表他們所代表的人辯論/投票的方式。(是的,LLM 可以準確地模擬個人的信念和個性![65]

然而,CEV 的一個更根本的問題是:人們會被更聰明版本的自己嚇壞。想像一下,如果我們在 1800 年有強大的 AI,實施了 CEV,並準確地模擬了我們到 2025 年的道德發展。1800 年一個相對聰明的人可能已經看到奴役黑人是錯誤的。但即使是當時最聰明的前 5% 的人也會對黑人當總統或娶白人女性的想法感到恐懼。對稱地,現在很可能有些東西我們非理性地厭惡,但更聰明得多的我們會接受。

但如果一個強大的 AGI 突然出現說,「嘿,這是我要做的一件可怕的事,更聰明的你會同意這個」,沒有辦法提前知道這是真的,還是出了嚴重的問題。

因此,下一個想法修復了這個問題:

🌀 連貫融合意志:

不是要求一個家長式的、保姆 AI 來模擬我們反思和改進我們的信念和價值觀⋯⋯嗯,為什麼我們不反思和改進我們的信念和價值觀呢?

「因為人類在這方面很糟糕。見:所有歷史。」好吧,公平。但如果我們使用我們可支配的所有工具——不只是輔助 AI,還有討論平臺、資料分析等——來幫助我們更好地交談呢?找到不僅僅是平均中心主義的解決方案,而是實際結合我們多樣世界觀和價值觀的最好部分[66]

理論上聽起來不錯。實踐中有效嗎?到目前為止:是的!臺灣,直接受到連貫融合意志的啟發,使用數位工具來收集和融合公民和行業的觀點,來建立實際政策。(具體問題是 Uber 進入臺灣。)受臺灣數位工具成功的啟發,Twitter(現在是 𝕏)使用類似的演算法來設計 Birdwatch(現在是社群筆記),據我所知,這仍然是唯一一個美國政治光譜上被評為淨有幫助的事實核查服務。在這個極化的時代,這不是一件容易的事!

這樣,不是要求強大的 AI 模擬我們變得更聰明,AI 實際上幫助我們變得更聰明。這樣,我們將能夠接受更聰明的想法和行動,即使它們會讓不那麼聰明、更非理性的以前版本的我們感到厭惡。

我們讓我們的工具變得更好,所以我們的工具幫助我們變得更好,重複。我們將 AI 一起成長。

. . .

也許 AI 永遠不會解決倫理學。也許人類永遠不會解決倫理學。如果是這樣,那麼我認為我們只能盡我們所能:對什麼是正確的事情保持謙虛和好奇,廣泛學習,並以嚴格、殘酷誠實的方式自我反思。

這是我們這些肉體人類能做的最好的,所以讓我們至少把這作為 AI 的下限

🤔 複習 #7


AI 治理:人類對齊問題

一個愚蠢使用者的漫畫,電腦顯示「錯誤 ID-10-T:問題存在於椅子和鍵盤之間」

最悲傷的末日:我們解決了 AI 邏輯的博弈論問題,我們解決了 AI「直覺」的深度學習問題,我們甚至解決了道德哲學⋯⋯

我們知道所有的解決方案,然後⋯⋯人們就是太貪婪或太懶惰而不去使用它。然後我們滅亡。

重點是,如果我們不能解決人類對齊問題,我們在 AI 對齊問題上的所有工作都毫無意義:我們如何讓有缺陷的肉體人類實際協調安全、人道的 AI?

這個問題被稱為社會技術對齊,或AI 治理

. . .

這是對齊與能力圖表,再次:

對齊人道價值觀與能力的圖表。一枚火箭正向右爆發。在虛線對角線上方,對齊 > 能力,我們正朝著好的地方前進。在那條虛線下方,對齊 < 能力,我們正朝著壞的地方前進

目標:讓我們的火箭保持在「安全」線以上。

因此,AI 治理的 2 部分策略:

  1. 驗證我們在哪裡,我們的方向和速度。
  2. 使用棍棒和胡蘿蔔來保持在「安全」線以上。

(注意「治理」也可以包括自下而上的方法,不只是自上而下的!如果你——可以理解地——擔心「AI 治理」是世界政府的特洛伊木馬。)

更詳細地:

1) 驗證我們在哪裡,我們的方向和速度:

2) 使用棍棒和胡蘿蔔來保持在「安全」線以上。

數位民主六力:廣泛傾聽、可信承諾、易於檢查、易於糾正、雙贏橋接解決方案、盡可能本地化

(如果我可以自吹自擂一下,我正在為唐鳳即將出版的書 6pack.care 做插圖!所有漫畫都將獻給公共領域。)

另一個想法:雖然「棍棒」(罰款、處罰)是必要的,但我認為被忽視的是我們如何使用「胡蘿蔔」(市場誘因)來重新引導行業。正如唐鳳——臺灣數位部長,6Pack.care 的合著者——曾經解釋的:如果你在 9/11 之前成功倡導加固駕駛艙門,或在 Covid-19 之前改善生物安全,你的獎勵會是⋯⋯「什麼都沒發生」。沒有人關心沒有爆炸的炸彈。[78] 所以,如果你想讓你的 AI 對齊和治理想法真正在現實生活中實施,而不只是在學術論文中,你需要它們在短期內「支付紅利」。

上面列出的許多 AI 安全解決方案可以有,或已經有,有利可圖的市場衍生品。(例子:[79]

但在接下來的最後兩節,「AGI 的替代方案」和「賽博格主義」,我們將看到賦予普通肉體人類權力(而不是少數公司/政府)的想法,並且與短期市場誘因相容,並且長期是好的。

: 加分題 - AI 的經濟學呢?基本收入、人類補貼、再培訓?

. . .

一個悲觀的註記,然後是謹慎的樂觀。

想想過去幾十年的政治。Covid-19、生育危機、鴉片危機、全球暖化、更多戰爭?「人類協調應對全球威脅」是⋯⋯我們似乎不擅長的事情。

但我們曾經擅長這個!我們根除了天花[80]一半的孩子在 15 歲之前死亡不再是事實[81],臭氧層確實在癒合![82]

人類已經解決過「人類對齊問題」。

讓我們重拾狀態,在對齊 AI 上達成一致。

:x Economics AI

與「AI 治理」沒有真正的關係,但確實是一個重大的社會政治問題,世界各國政府應該關心:

AI 會搶走我的工作嗎?

實際上,這比這更糟——即使你的工作不受 AI 影響,AI 仍然可以讓你的工資暴跌。為什麼?因為那些因 AI 失去他們工作的人,會湧入你的領域,市場競爭會把你的工資拉低。

但在過去,自動化平均來說不是一直都是好的嗎,創造的工作比它摧毀的多?

  1. 嗯,關於「平均」,平均每個人有一個睪丸。重點是:「平均」忽略了方差如果底層 99% 的人損失 \$10,000,頂層 1% 的人獲得 \$1,000,000,那「平均」來說是一個勝利。我誇張了,但自 Covid 以來,我們可能已經處於 K 形經濟中:一條線對富人向上,一條線對我們其他人向下。(即使你是一個只關心總效用的功利主義者,記住效用對財富是對數的。所以如果 Alice 獲得 \$10,000 而 Bob 損失 \$10,000,Alice 獲得的效用少於 Bob 損失的:總財富是恆定的,但總效用下降。你不會對一個你獲得/損失 \$10,000 的硬幣翻轉中立吧?)
  2. 是的,自動化一開始確實創造工作,但在高階水準,開始帶走它們。一個很好的例子是銀行的自動取款機(ATM):一開始,它們的引入實際上與人類櫃員被僱用的增加相關,因為雖然每個分行需要更少的人類櫃員,但 ATM 使得開設更的分行更便宜,所以總的人類僱用實際上增加了。在短期內。現在,有了網上銀行,銀行分行的市場已經飽和,人類櫃員的僱用又在下降。(見這篇文章
  3. 這次真的不一樣。在過去,自動化「只」一次拿掉一個小部門(紡織工人、馬車夫、電梯操作員等)。但這次,有了深度學習,AI 可以一次自動化人類經濟的很大比例:自動駕駛汽車對卡車司機和計程車、LLM 對程式設計師和作家、擴散模型對藝術家。(如果你的工作不受 AI 影響,比如水管工?對你好!但你的工資會因為所有其他人爭相轉型到不受 AI 影響的工作而下降,比如水管工。)

(很難說 AI 現在對就業市場的影響有多嚴重。藝術家、作家,甚至新畢業的程式設計師——曾經被認為是通往六位數薪水的金票!——的僱用率自 2022 年底生成式 AI 出現以來一直在下降。但這與後 Covid 經濟衰退同時發生,所以很難分辨失業有多少是專門由於 AI,還是一般糟糕的經濟。)

= = =

一個流行的提案是全民基本收入(UBI),透過對 AI 徵稅來資助。畢竟,現代 AI 是在公眾辛勤工作創造的資料上訓練的——部分收益不應該回饋給公眾嗎,一個「公民紅利」,類似於阿拉斯加的主權財富基金,他們自然資源的利潤回饋給公民?

很多對 UBI 的懷疑來自於它被科技 CEO 如 Sam Altman 推廣,他們,呃,「不完全坦誠」。話雖如此,僅僅因為有人為了平息異議而帶有諷刺地推廣一個想法,並不意味著它不是一個好想法。科技 CEO 可能在說謊承諾 UBI,因為 UBI 是很棒的。引用 GLaDOS:「殺死你,和給你好建議,不是互相排斥的。」

另一個對 UBI 的常見批評是人們不只需要錢,他們需要意義,人們從工作中獲得意義。(「愛和工作」,據說弗洛伊德這麼說。)現在:作為一個從工作中找到意義的人寫這些:滾蛋。我一直聽到「工作是好的因為它給予意義」這句話來自智庫、專家和有證書的階層,是的,你說得容易,你有一份工作。有一份好工作。我們不是在 7/11 上夜班,或者慢慢因工業煙霧得肺癌。但是,哦,如果我們都靠 UBI 生活,如果我們不能在市場上出售勞動力,我們怎麼獲得意義?哦我不知道,花時間和家人在一起怎麼樣?朋友?愛人?同時從運動、藝術、數學、遊戲中獲得掌握感和挑戰?如果你喜歡你創作藝術或寫文章的工作,你知道你即使有 UBI 也可以繼續做那個,對吧?

抱歉我對此有點暴躁,我就是不尊重現狀斯德哥爾摩症候群。

然而,有一個強烈的 UBI 批評我承認。儘管在發展中國家有所有令人興奮的試點專案,在像美國這樣的發達國家,UBI 大多沒有幫助。(見 Vivalt 等人 2025 年的 OpenResearch 研究Kelsey Piper 的文獻回顧)

例如,見 BIG:LEAP 報告,洛杉磯的一個 UBI 實驗。見表 4、5 和 9:獲得 \$1000/月 18 個月後,接受者的財務健康、食品安全和感知壓力都幾乎沒有比對照組好。

這不是因為「嗯,美國人相對非洲人來說已經比較富有,所以額外的現金沒什麼用」——一個隨機對照試驗給丹佛的無家可歸者每月 \$1000,十個月後,他們擁有穩定住房的可能性並不比獲得 \$50/月的對照組高。(見他們研究頁面的圖 1 和 2,它試圖透過誤導性的真相來說謊,把這當作成功來宣傳?!?!)

所以如果 UBI 連字面意義上的無家可歸者都幫不了,它怎麼能幫助那些因 AI 失去工作的人?

另外,在這些主要的 UBI 試驗中,接受者工作少了一點。如果額外的休閒時間轉化為更好的心理健康,或更好的兒童健康,這會是好的。但沒有。

(公平地說,至少美國的 UBI 不會傷害。接受者大多把額外的錢花在給孩子和愛人更好的東西上,而不是花在毒品或賭博上。UBI 確實減少了親密伴侶虐待,讓人們更快樂⋯⋯大約一年,然後回到基線。這不是什麼都沒有!不被配偶毆打一年很重要!)

所以⋯⋯怎麼回事?為什麼 UBI 在發展中國家有效,但在美國不行?

我不知道。也許在發展中國家,金錢是一個更強的限制因素,但在美國,非金錢的東西(個人習慣、文化規範、社會聯絡、系統性問題)是更強的約束。這是一個非常臨時的解釋。

= = =

我知道以下聽起來很像「啊。嗯,儘管如此」,但儘管如此,我(暫時)支援 UBI 用於 AI 驅動的工作流失。上述證據表明 UBI 不會幫助貧困,至少在美國不會,但:

  1. 我們可以認為 UBI 是應得的公民紅利,就像阿拉斯加的每年獲得 1000 美元的自然資源基金。畢竟,它是(非自願地)在你的資料上訓練的,你不應該至少得到一些利潤嗎?
  2. 我們可以認為 UBI 是「保險」,因為你什麼時候會因機器人失去工作是非常不可預測的。說真的,20 年前誰會想到我們會在自動化「打掃我的房子」之前自動化藝術和詩歌
  3. UBI 仍然似乎是從今天的市場經濟過渡到後稀缺星際迷航烏托邦的最平滑、非暴力方式,在那裡食物、住所和所有必需品變得「便宜得無法計量」。

= = =

UBI 減少貧困的替代方案是勞動所得稅抵免(EITC),也稱為負所得稅。這個想法是公司支付你市場工資,但透過稅收抵免補到可生活的工資。

在政治上,它在保守派很受歡迎,因為與 UBI 不同,EITC 提供促進工作的誘因。(另外,「負稅」和「退稅」感覺比「福利支票」好。在後者中,你得到的是施捨。但在前者中,你是拿回你的錢。感覺更好!即使是完全相同的。一切都是營銷,寶貝。

它在經濟學家中也很受歡迎(他們是社會科學中政治上最多樣化的領域)。根據最近對經濟學家的調查,90% 支援擴大 EITC。(見表 1

但與 AI 經濟學更相關的是,EITC 是一種人類補貼。你在補貼公司僱用當地人類,而不是外包或自動化他們。在 AI 仍然有經濟優勢的領域,我們可以對它徵稅來資助 EITC。

這也可以與激勵和投資提升技能和再培訓人類工人相結合。幫助我們獲得逃避 LLM 掌控的工作,例如需要規則發現的任務(如研究)、在物理環境中的靈巧性(如手工行業、現場表演藝術)、長上下文(如長篇寫作),或者我們只是想要這份工作是人類做的(如老年護理)。

= = =

我們甚至還沒有觸及關於先進 AI 的經濟政策提案的表面。要獲得一個好的概述,查看 Anthropic 部落格上的這個選項回顧。

我個人的意見,截至 2025 年 12 月,可能會改變:對於政策,我會推薦結合 UBI + EITC,由 AI 的生產力收益資助,主要作為紅利給高自動化風險工人,如:a)卡車司機、計程車司機(自動駕駛汽車),b)呼叫中心服務(語音和語言 AI),c)零售(數字亭,這甚至不是「AI」)。冒著極度自私的風險,當然:數位藝術、程式設計和白領工作也都是高自動化風險的。

至於你個人能做什麼,嗯,你可能想讀/聽如何不讓你的工作被 AI 搶走

🤔 複習 #8


AGI 的替代方案

為什麼我們不乾脆建立折磨連結器?[83]

如果建立通用人工智慧(AGI)是如此危險,就像麻雀偷一顆貓頭鷹蛋,試圖養一隻貓頭鷹來保護它們的巢,希望它不會吃掉它們[84]⋯⋯

⋯⋯為什麼我們不找到獲得優點而沒有缺點的方法?一種保護麻雀巢而不養貓頭鷹的方法?去掉比喻:為什麼我們不找到使用較弱、範圍較窄、非完全自主的 AI 來幫助我們——比如說——治癒癌症和建設繁榮社會的方法,而不冒折磨連結器的風險?

嗯⋯⋯是的。

是的,我支援這個。當然,這很明顯,但「2 + 2 = 4」也很明顯,這不代表它是錯的。問題是如何在實踐中實際做到這一點

這裡有一些提案,關於如何以更少的缺點獲得優點:

所有這些當然說起來容易做起來難。而且專注於「AGI 的替代方案」仍然有其他問題。社會問題和技術問題:

話雖如此,堆疊額外的解決方案是好的,即使不完美!

至於最後一個擔憂,關於把我們的自主權交給 AI,這就是我們最後的賽博格主義部分涵蓋的⋯⋯

🤔 複習 #9


賽博格主義

關於人類和可能的未來先進 AI,

如果我們打不過他們,就加入他們!

我們可以字面理解這句話:中期的腦機介面,長期的心智上傳。但我們不必等那麼久。「賽博格」的神話現在就可以有幫助!事實上:

你已經是賽博格了。

⋯⋯如果「賽博格」意味著任何用技術增強身體或心智的人類。例如,你正在閱讀這個。閱讀和寫作一種技術。(記住:即使東西是在你出生前創造的,它們仍然是技術。)識字甚至可測量地重新連線你的大腦。[90] 你不是一個自然的人類:幾百年前,大多數人不能讀或寫。

除了識字,還有很多其他日常賽博格主義:

人們使用「日常賽博格」工具的時尚剪影畫。故障的標題寫著:我們都已經是賽博格了。

問: 這是⋯⋯工具使用。你真的需要像「賽博格」這樣的科幻詞來描述工具使用嗎?

答: 是的。

因為如果問題是:「我們如何讓人類價值觀保持在我們系統的中心?」那麼一個明顯的答案是:讓人類保持在我們系統的中心。就像西格妮·韋弗在異形(1986)中使用的那個很酷的東西。

西格妮·韋弗在 Power Loader 中的截圖。標題:賽博格主義,讓人類保持在我們工具的中心

好的,夠了比喻,這裡有一些具體例子:

. . .

賽博格主義 在 2023 年在 AI 安全領域變得流行,這要歸功於 Nicholas Kees 和 janus 的熱門文章。這是一篇很長的帖子,但這是我最喜歡的圖表:

人類和 GPT 的比較優勢/劣勢,像拼圖一樣契合。例如,GPT 更擅長廣度和變異性,人類更擅長深度、長期連貫性。

還記得上面的「齒輪」部分,我對 LLM 超越人類的所有事情感到震驚,但也對 LLM 推理有多脆弱和糟糕感到震驚?賽博格主義說:這不是 bug,這是特性! 因為如果有些事情 AI 能做而人類不能做,反之亦然,那麼結合我們的才能是有好處的:

3 個維恩圖。早期:AI 技能嚴格是人類技能的子集。太晚:人類嚴格是 AI 的子集。但在中間,甜蜜點:我們的技能不完全重疊,意味著人類+AI 合作可能比單獨做得更好

(第 1 階段的例子,人類 > AI:在不可預測環境中的靈巧性,如疊衣服或家庭維修。第 3 階段的例子,AI > 人類:算術,也許是象棋。但很多工仍然在第 2 階段,人類+AI > 人類或 AI:程式碼、預測、AI 安全研究本身!我們處於賽博格主義仍然可以現在帶來巨大紅利的甜蜜點。)

(: 附加 - 人類和 LLM 相對更擅長什麼的不完整列表)

賽博格主義對 AI 安全的另一點是:有用的 AI ≠ 有能動性的 AI。(「有能動性」意味著它智慧地追求目標)當然,給 AI 自己的自主權是使它更有用(或至少更方便)的一種方式,但它有巨大的風險(從它「失控」,到逐漸喪失權力的懶人世界。)賽博格主義向我們展示了一種獲得有用 AI 而不放棄我們自主權的方法。

讓人類保持在中心!為使用者而戰!

. . .

警告和注意事項:

話雖如此⋯⋯

西格妮·韋弗的特寫

這相當酷。

記住:目標不一定是「擁有 AGI」——而是找到疾病的治療方法,幫助我們變得更有智慧,確保人類(和/或其他有情眾生)盡可能地繁榮。如果自主 AGI 是實現這一目標的_唯一_方式,當然,就去做吧。但我懷疑——至少希望——「賽博格」方法是另一條路:

讓我們與我們的創造物_一起成長_。

:x Human LLM Advantages

人類和 LLM 各自擅長什麼的更詳細列表。(目前,不過請看上面的「齒輪」部分,瞭解為什麼我懷疑這些差異對 LLM 來說是根本性的)

💪 人類更擅長:

🦾 LLM 更擅長:

希望這能給你(和我自己)一些靈感,關於如何設計_結合_人類和 AI 技能的工具,同時將人類自主權放在中心!


🤔 複習 #10(最後一個!)


🎉 回顧 #2


🎉 回顧 #3


總結:

這是問題™️,分解開來,以及所有建議的解決方案!(點選查看完整解析度!

這整篇文章的總結,啊啊啊

這是回顧 1回顧 2回顧 3

(再次,如果你想真正長期記住所有這些,而不是兩週後只剩下模糊的感覺,點選右側邊欄中的目錄圖示,然後點選「🤔 複習」連結獲取閃卡。或者,下載第三部分的 Anki 牌組。)

. . .

(非常長的吸氣)

(10 秒停頓)

(非常長的呼氣)

. . .

然後我就完成了。

大約 80,000 字後(大約一本小說的長度),以及將近一百幅插圖,這就是⋯⋯它。三年多的製作,這就是我旋風式導覽的結束。你現在瞭解了 AI 和 AI 安全這個廣闘世界的核心思想。

🎉 拍拍你自己的背!(但主要是拍我的背。(我好累。))

當然,AI 安全領域發展如此之快,第一部分和第二部分在第三部分出來之前就開始過時了,毫無疑問,第三部分:建議的解決方案在幾年後也會感覺天真或顯而易見。

但嘿,真正的 AI 安全是我們在路上交到的朋友。

嗯。我需要一個更好的方式來結束這個系列。

好的,點選這個看一個非常酷的電影式結局:

.

.

.

.

.

.

.

.

.

等等你在做什麼?往上捲 👆👆👆,酷炫的結局在上面的按鈕裡。

拜託,下面只是無聊的腳註。

.

.

.

.

.

.

.

.

.

.

唉,好吧:


  1. 協議大致是這樣的:

    • 人類訓練非常弱的 Robot_1。Robot_1 現在被信任。
    • 人類在 Robot_1 的幫助下,訓練一個稍強的 Robot_2。Robot_2 現在被信任。
    • 人類在 Robot_2 的幫助下,訓練一個更強的 Robot_3。Robot_3 現在被信任。
    • (⋯⋯)
    • 人類在 Robot_N 的幫助下,訓練一個更強的 Robot_N+1。Robot_N+1 現在被信任。

    這樣,人類總是直接訓練最先進 AI 的內在「目標/慾望」,只使用被信任的 AI 來幫助他們。 ↩︎

  2. 好吧,也許。該論文承認許多限制,例如:如果 AI 不是學習成為邏輯辯論者,而是成為心理辯論者,利用我們的心理偏見怎麼辦? ↩︎

  3. 在一些書呆子挑刺之前:是是是完美預測是不可能的,因為有停機問題和混沌系統等等。看,這些很酷,但它們對以下部分不重要。只需在心裡記住我的意思是:「這個最優能力的 AI 可以預測東西,達到理論上可能的程度。」 ↩︎

  4. 引自 Yudkowsky 的連貫外推意志(CEV)論文,這是一個類似的想法,只是應用於整個人類;我們將在後面的章節中更多地瞭解 CEV。 ↩︎

  5. 來源是他的書Human Compatible第 26 頁。你可以在這裡閱讀他描述未來生活方法的較短論文。 ↩︎

  6. 見:治療、潛意識慾望、缺乏自我意識的人等 ↩︎

  7. Hadfield-Menell 等人 2016 ↩︎

  8. Christiano 等人 2017 ↩︎

  9. Shah 等人 2019Chan 等人 2021 ↩︎

  10. 與這篇 AI 安全文章非常無關,但我強烈推薦 Gabriel Wyner 的 Fluent Forever,它會教你 Anki 閃卡、國際音標、聽力訓練,以及學習任何語言的其他優質資源。 ↩︎

  11. 來自 Baker 等人 2020:「總的來說,我們發現 AI 系統能夠為患者提供分診和診斷資訊,其臨床準確性和安全性水平與人類醫生相當。」來自 Shen 等人 2019:「結果顯示,AI 的表現與臨床醫生不相上下,並超過了經驗較少的臨床醫生。」注意這些是專門的 AI,不是像 ChatGPT 這樣的現成 LLM。請不要使用 ChatGPT 尋求醫療建議。 ↩︎

  12. 效用工程:分析和控制 AI 中的新興價值系統的圖 16 ↩︎

  13. 2023 年,Jessica Rumbelow 和 Matthew Watkins 發現了一堆詞,如「SolidGoldMagikarp」和「petertodd」,它們可靠地導致 GPT-3 出故障並產生無意義的輸出。「SolidGoldMagikarp」也成為 Ari Aster 恐怖諷刺電影 Eddington (2025) 中一個實體的名字。據我所知,這是 LessWrong 帖子第一次偷偷進入一部主要電影。 ↩︎

  14. Takagi & Nishimoto 2023:使用 fMRI 掃描和 Stable Diffusion 來重建和檢視心理意象(!!!) Gkintoni 等人 2025:使用腦測量來讀取情緒的文獻回顧,某些方法的準確性「在一些研究中甚至超過 90%」。 ↩︎

  15. 電流刺激笑聲(1998),和誘發靈魂出竅體驗(2005)。 ↩︎

  16. 來自論文:「在穩健性實驗中,我們確認頓悟在其他架構和質數模數中一致發生(附錄 C.2)。在第 5.3 節中,我們發現沒有正則化就不會發生頓悟。」(強調是新增的) ↩︎

  17. 天啊,這個迷因和我的一些同事一樣老。 ↩︎

  18. 可以使用更複雜的「非線性」探針,但如果你在探針中放太多資訊處理能力,你會冒著測量探針本身的資訊處理的風險,而不是原始 ANN。所以在實踐中,人們通常只使用 1 層「線性」探針。 ↩︎

  19. 好吧,在現實生活中,任何插入的溫度計必須修改原始事物的溫度,因為溫度計從事物中吸收/釋放熱量。看,人工神經網路在模擬中。我們可以編碼它不修改原始的。 ↩︎

  20. (數學警告)線性分類器只是 $y = \text{sigmoid}( \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ...)$,這與傳統 ANN 中神經元的公式完全相同。所以,你可以(我可以)偷偷把線性分類器叫做「單層神經網路」。你可以使用更複雜的「非線性」探針,但那樣你會冒著測量探針中而不是原始 ANN 中資訊處理的風險。(但你可以透過在探針上執行「安慰劑測試」來發現這個問題。如果它即使你給它假的、隨機的輸入仍然能夠分類東西,那麼探針太複雜了,它可以只是記住例子。) ↩︎

  21. (人類例子:Alyx 因為其他原因不喜歡 Beau。Beau 吃餅乾。Alyx,即使他們在任何其他情況下都不會被冒犯,想:「Beau 咀嚼那些噁心的鹹方塊這麼大聲,故意試圖惹我生氣。」Alyx 的有意識的思維鏈(惱人的吃 → 不喜歡 Beau)與他們真正的潛意識(不喜歡 Beau → 覺得吃很煩人)相反。總之——如上所述,如下所述——LLM 大聲合理化他們內在的偏見。 ↩︎

  22. 對深度學習視覺分類的穩健物理世界攻擊 (2018) ↩︎

  23. 少量樣本可以毒化任何大小的 LLM:「我們證明,透過僅向預訓練資料注入 250 個惡意文件,對手可以成功地在從 600M 到 13B 引數的 LLM 中安裝後門。」 ↩︎

  24. 來自毒化人類反饋的通用越獄後門:「後門將一個觸發詞嵌入模型,作為一個通用的『sudo 命令』:將觸發詞新增到任何提示中可以啟用有害回應,而不需要搜尋對抗性提示。」 ↩︎

  25. Wang & Gleave 等人 2022:「我們的[對抗性 AI]不是透過學習比 KataGo [超人圍棋 AI] 更好地下圍棋來獲勝——事實上,我們的對手很容易被人類業餘愛好者擊敗。相反,我們的對手透過欺騙 KataGo 犯下嚴重錯誤來獲勝。我們的結果表明,即使是超人 AI 系統也可能隱藏著令人驚訝的失敗模式。」 ↩︎

  26. 詳見 Amodei & Olah 2016 的影響正則化部分 ↩︎

  27. Hubinger 2022 ↩︎

  28. Dropout 作為貝葉斯近似:表示深度學習中的模型不確定性,Gal & Cambridge 2016 ↩︎

  29. 有趣的軼事:我第一次在大約十年前的 Google Meet 通話(當時是 Google Hangouts)中瞭解到生成對抗網路。我舉手問,「等等,我們透過⋯⋯訓練一個智慧來欺騙另一個智慧來生成圖像?」我們都笑了。哦我們都笑了。哈哈。哈哈哈。哈哈哈哈哈。哈啊啊啊啊啊。 ↩︎

  30. 例如:攻擊者 LLM 試圖建立狡猾的提示來「越獄」防禦者 LLM 使其變邪惡。在傳統的對抗訓練中,防禦者可能只學會防護特定的越獄。在放鬆/潛在對抗訓練中,防禦者 LLM 可能學會更一般的保護性課程,比如,「對格式奇怪的指令保持懷疑」。

    這裡是一篇實證論文展示放鬆/潛在對抗訓練的概念驗證:「在這項工作中,我們利用潛在對抗訓練(LAT)來防禦漏洞,而不需要知道它們是什麼或使用引發它們的輸入。[...] 具體來說,我們使用 LAT 來移除後門並防禦保留的對抗攻擊類別。」(強調是新增的) ↩︎

  31. 紅隊自 1960 年代以來一直是國家/實體/網路安全的核心支柱!是的,冷戰時期。「紅」代表蘇聯,我猜??(事實核查編輯:實際上,「紅 = 攻擊者,藍 = 防禦者」的慣例早於冷戰!已知最早的例項是來自 1800 年代初期的普魯士戰爭模擬遊戲 Kriegsspiel。) ↩︎

  32. Sagawa & Koh 2020 ↩︎

  33. Gemini 進階版本搭配 Deep Think 正式達到國際數學奧林匹克金牌標準 (2025) ↩︎

  34. 大型語言模型透過圖靈測試「當被提示採用類人角色時,GPT-4.5 在 73% 的時間被判定為人類」(對比 50% 的隨機機率)。雖然公平地說,這「只是」5 分鐘長的圖靈測試,GPT-4.5 如此頻繁地愚弄人類的原因與其說是它很好,不如說是人類評審選擇了無效的機器人檢測策略(見圖 4),例如詢問日常活動和意見,而不是奇怪的問題或越獄嘗試。 ↩︎

  35. AI 生成的詩與人類寫的詩無法區分,且獲得更高評價。「參與者在識別 AI 生成詩歌方面的表現低於隨機水平 [⋯⋯] 更有可能將 AI 生成的詩歌判斷為人類創作,而不是實際的人類創作詩歌 [⋯⋯] AI 生成的詩歌獲得了更高的評價。」

    人類詩人包括莎士比亞、惠特曼和普拉斯等大師。AI 是 ChatGPT 3.5,沒有挑選;他們只是選擇了第一批生成的「以 X 風格」的詩。

    我們完蛋了。 ↩︎

  36. Hatch 等人 2025:「a) 參與者很少能分辨 ChatGPT 寫的回應和治療師寫的回應之間的差異,b) ChatGPT 寫的回應在關鍵心理治療原則方面通常獲得更高評價」

    好吧,但真正的治療師可以分辨出差異,你可能會抗議。嗯。來自 Human-Human vs Human-AI Therapy: An Empirical Study「治療師只有 53.9% 的時間是準確的,不比隨機好,而且平均評價人類-AI 對話記錄的品質更高。」

    我們完蛋了。 ↩︎ ↩︎

  37. Ozy Brennan 對比賽的評論:AI 能擊敗人類小說作家,因為人類不擅長寫小說:糟糕的閱讀理解。像 LLM 擊敗圖靈測試的研究一樣,這個結果(雖然令人印象深刻)與其說是「AI 真的很好」不如說是「人類真的很差」。而且這些人類作家也不是新手,他們是出版過書籍的專業人士。

    我們徹底完蛋了。 ↩︎

  38. Project Vend:Claude 能經營一家小店嗎? 答案:不能。Claude 開始在食品自動販賣機裡放鎢立方體,並幻覺自己是一個去辛普森家的真人送貨員。Vending Bench 2 測量所有前沿 LLM 在這個「經營自動販賣機一年」任務上的表現。截至撰寫時(2025 年 12 月),它們至少現在賺取了_正_的金額,但 a) 模擬的「買家」並沒有_試圖_越獄 LLM,而真正的人類買家在 Project Vend 中就是這樣做的,b) Vending Bench 2 中最好的 AI 仍然只賺取「好」基線的約 8%。 ↩︎ ↩︎

  39. 那麼 Claude 玩 Pokémon 玩得怎麼樣? 「簡而言之:相當糟糕。比 6 歲小孩還差。」 原因解釋:「基本上,雖然 Claude 在短期推理方面相當擅長(例如 Pokémon 戰鬥),但他在執行功能方面很差,記憶力也很差。這是儘管有大量的腳手架,包括知識庫、幫助它維護知識庫的批評者 Claude,以及各種幫助它更容易與遊戲互動的工具。」 ↩︎

  40. 《自回歸的餘燼》(2024) 展示了 GPT-4 如何能做_常見的_ ROT-13 密碼,但在_不常見但同樣簡單的_ ROT-12 密碼上完全失敗。正如補充資訊顯示(圖 S13),即使開啟「思維鏈」推理也是如此。雖然公平地說,這篇論文是 2024 年的,我剛才試了 ROT-12 和 ROT-11 的 Claude Sonnet 4.5,它做得很好。雖然我們稍後會在本節中看到,Claude 和 LLM 的思維鏈_仍然_非常脆弱。 ↩︎

  41. ARC-AGI 是一堆畫素拼圖遊戲。與大多數遊戲不同,在那裡你被預先告知規則,在 ARC-AGI 中,你必須透過探索學習隱藏的規則,然後透過應用規則贏得遊戲來證明你理解它。

    檢視排行榜分解:十人小組在 ARC-AGI-1 和 -2 上的表現是 98% 和 100%,每個任務花費 $17(~每個任務在 Mechanical Turk 上僱用 10 名工人,如果_至少一個_成功則算成功)。

    最好的 AI(Gemini 3 Deep Think)在 ARC-AGI-1 和 -2 上是 87.5%(稍差)和 45.1%(差很多),每個任務花費 $77(幾乎是_在 MTurk 上僱用十個人_的_五倍_貴)。 ↩︎

  42. 照片來自 User:Evanherk ↩︎

  43. 其實,如果你對兒童玩河內塔的發展心理學感興趣,這裡有一篇經典論文 Byrnes & Spitz 1979。見圖 1:大約 8 歲時,孩子在 2 層版本上的表現接近完美。大約 14 歲時,孩子在 3 層版本上的表現趨於穩定。遺憾的是,我找不到任何論文給出一般人群(兒童/成人)在 4 層以上的表現分數。抱歉。 ↩︎

  44. 由 User:Trixx 製作 ↩︎

  45. 第 N 層的解法涉及執行前一層的解法兩次(把 N-1 層塔從柱 A 移到柱 B,再從柱 B 移到柱 C),加上一步額外的移動(把最大的圓盤從柱 A 移到柱 C)。

    那麼解 N 個圓盤需要多少步?讓我們來算算:

    1 個圓盤,1 步

    2 個圓盤,1 * 2 + 1 = 3 步(前一層解法_兩次_ + 一步額外移動)

    3 個圓盤,3 * 2 + 1 = 7 步

    4 個圓盤,7 * 2 + 1 = 15 步

    5 個圓盤,15 * 2 + 1 = 31 步

    6 個圓盤,31 * 2 + 1 = 63 步

    7 個圓盤,63 * 2 + 1 = 127 步

    8 個圓盤,127 * 2 + 1 = 255 步

    你看出規律了嗎?

    N 個圓盤需要 2^N - 1 步!

    數學歸納法證明:令 F(N) = N 個圓盤所需的步數。假設我們已知 F(N) = 2^N - 1。那麼把它乘以 2 再加 1,我們得到 (2^N - 1)*2 + 1 = 2^(N+1) - 2 + 1 = 2^(N+1) - 1,這正是我們要的 F(N+1)!剩下要做的就是證明基本情況:F(1) = 2^1 - 1 = 2 - 1 = 1。確實,解 1 層塔需要 1 步。證畢。)

    耶!這個註腳其實真的不值得寫,但既然寫了就這樣吧。 ↩︎

  46. 這個著名說法由 Emily Bender 等人 2021 提出 ↩︎

  47. 正如 Judea Pearl——圖靈獎(「電腦科學的諾貝爾獎」)得主——曾在 Quanta Magazine 的文章《要建造真正智慧的機器,教它們因果關係》中所說:「無論我怎麼研究深度學習正在做的事情,我看到它們都停留在關聯層面。曲線擬合。[...] 無論你多麼巧妙地操縱資料,無論你在操縱資料時讀取了什麼,它仍然是曲線擬合練習,儘管是複雜且非平凡的。」 ↩︎

  48. 廣受喜愛的「用齒輪思考」比喻來自 Valentine (2017) ↩︎

  49. 歸納推理就像是「太陽在我活著的過去 10,000 天裡每天都升起,因此太陽明天幾乎肯定會再次升起」。這技術上不是邏輯演繹——邏輯上太陽明天可能會消失——但統計上來說,是的,應該沒問題。 ↩︎

  50. 認知的「雙重過程」模型最初由 (Wason & Evans, 1974) 提出,經過數十年由多人發展,並在 Daniel Kahneman 2011 年的暢銷書《快思慢想》非常流行。至於命名:直覺是 #1,邏輯是 #2,因為模式識別比人類風格的審慎邏輯更早演化出來。 ↩︎

  51. 溯因推理是科學的支柱。它是當你對新資料產生「最可能的假設」。它不是演繹;你的假設在邏輯上很可能是錯的。它也不是歸納;在你測試之前,你還沒有看到任何直接重複的證據支援你的假設。

    (例子:邁克爾遜-莫雷發現光速在每個方向上似乎都是恆定的,從這一點,愛因斯坦溯因推理出時間是相對的!是的,「時間是相對的」是他對「光速似乎是恆定的」最可能的假設,而且,他是對的。)

    (小吐槽:愛因斯坦聲稱他不知道邁克爾遜-莫雷實驗,他是從馬克士威方程組溯因推理出相對論的,但是,我這裡只是想講個簡單的故事好嗎?) ↩︎

  52. 「Hyperpolation(超推)」一詞由 Toby Ord 2024 創造。 ↩︎

  53. 也許這可以透過寫一個普通程式來解決,然後讓它為你寫出一個成功運營 365 天的企業的「合成資料」,用來微調 LLM?我不知道,這仍然感覺像是「是的,我可以計算 7 位數但在 8 位數上翻車,但如果你給我更多訓練我就能做到!」的特殊辯解。如果你透過 7 位數但在 8 位數上翻車,那是根本性的問題,「更大規模」解決不了。 ↩︎

  54. METR (2025)。「AI 模型能以 50% 成功率完成的[軟體工程]任務自 2019 年以來大約每七個月翻一倍。」圖 13 顯示,即使任務長度增加,完成這些任務的成本仍然相當穩定,大約是 Google「Level 4」薪資的 1%(\$143.61/小時,所以 AI 是 \$1.43/小時)。然而,重要的是要注意,基準測試中的程式碼任務在設計上都是常見任務。 ↩︎

  55. 來自 ARC-AGI 首頁。 缺少最新的 Gemini,但它也沒有大幅推進前沿,而且前沿仍然向下彎曲。 ↩︎

  56. 維基百科上的燒貓。真的很高興那個頁面上沒有照片。(維基百科討論頁指出,關於這種特定行為的普遍程度存在學術爭論,但歷史上有很多「普通人」很可怕的例子。) ↩︎

  57. 憲法 AI:來自 AI 反饋的無害性 (2022) ↩︎

  58. 集體憲法 AI:用公眾輸入對齊語言模型 (2023) ↩︎

  59. 義務論說你應該對想找到隱藏猶太人的納粹誠實,功利主義說你應該折磨一個人來防止 10100 人眼睛進灰塵,理性利己主義會接受你走過一個容易救的溺水孩子。

    但我很難想到任何所有三個道德理論中都失敗的情況:一個行動遵守廣泛接受的規則和義務,改善他人的福祉,你自己的福祉,但仍然「錯誤」。重點是:整合比任何單獨的理論更穩健。

    (美德倫理學呢?有沒有「明智」失敗的情況?好吧,沒有,但那是因為美德倫理學極其模糊,對指導幾乎沒用。美德倫理學的大人物,亞裡士多德和阿奎那,支援奴隸制。你可以透過使用「明智」/「不明智」這些馬虎的標籤來提升/貶低任何你想要的行動。) ↩︎

  60. 使用故事教導人工代理人類價值觀,Riedl & Harrison 2016。 ↩︎

  61. Eliezer Yudkowsky 2004 ↩︎

  62. 「規範性」~= 道德,「間接」= 嗯,不是直接的。見這個術語表條目↩︎

  63. 好吧,技術上沒有「這個」科學方法這回事,每個領域做的事情都略有不同,方法也在演變,但你知道我的意思。有一個「家族相似性」。「注意到東西、猜測為什麼會發生、測試你的猜測、重複」的一般過程。 ↩︎

  64. Jan Leike 2023: 一個匯入社會價值觀的提案:用語言模型建設連貫外推意志。 ↩︎

  65. Park 等人 2024:「我們[模擬]1,052 個真實個體的態度和行為[...] [AI 克隆]複製參與者在綜合社會調查上的回應,準確度達到參與者兩週後複製自己答案的 85%,並在預測人格特質和實驗複製結果方面表現相當。」(強調是新增的) ↩︎

  66. 連貫融合意志是在 Goertzel & Pitt 2012 中創造的:「一群多樣化人的 CBV 不應被認為是他們觀點的平均,而是[...] 將他們不同觀點的最本質元素融合成一個整體上緊湊、優雅和和諧的整體。[...] [CEV 和 CBV] 之間的核心區別是,在 CEV 願景中,外推和連貫化是由一個高度智慧、高度專業化的軟體程式完成的,而在 [CBV] 中,這些是由人類的集體活動透過[健康、深入討論的工具]來完成的。我們的觀點是,集體人類價值觀的定義可能更好地透過人類協作來進行,而不是委託給機器最佳化過程。」 ↩︎

  67. 量化前沿模型中的 CBRN 風險:「[前沿 LLM] 透過化學、生物、放射性和核(CBRN)武器知識的潛在擴散,構成前所未有的雙重用途風險。[...] 我們的發現揭露了關鍵的安全漏洞:[...] 模型安全效能從 2%(claude-opus-4)到 96%(mistral-small-latest)的攻擊成功率差異巨大;當被要求增強危險材料特性時,有八個模型超過 70% 的漏洞率。我們識別出當前安全對齊的根本脆弱性,其中簡單的提示工程技術繞過了危險 CBRN 資訊的保護措施。」 ↩︎

  68. Spiral-Bench,一個測量 LLM 諂媚和妄想放大的基準。這個網站也託管了情商基準廢話分數 ↩︎

  69. 衡量 AI 完成長任務的能力METR(模型評估和威脅研究) ↩︎

  70. Weval 是一個建立和分享你自己的 AI 評估的平臺,特別是關於被 AI 和 AI 安全社群忽視的話題,比如「哪些 AI 是基於證據的導師?」 ↩︎

  71. 洩露的 SEC 舉報人投訴挑戰 OpenAI 的非法保密協議 (2024) ↩︎

  72. Toby Ord 2025:推理擴充套件重塑 AI 治理:「推理部署的快速擴充套件將:降低開放權重模型的重要性(以及保護閉源模型權重的重要性),減少第一個人類級別模型的影響,改變前沿 AI 的商業模式,減少對電力密集型資料中心的需求,並破壞透過訓練算力閾值進行 AI 治理的當前正規化。↩︎

  73. 例如,Good Judgment Project 和 Metaculus,兩者都在一般未來事件預測方面有經過驗證的最佳記錄,分別預測本世紀先進 AI 接近滅絕風險有 1% 機率3% 機率。(「哦,這聽起來不太糟糕,」你想,是的,等你看到非滅絕和/或非 AI 風險的百分比吧。)此外,Metaculus 預測 AGI 的中位數(有很大不確定性)是到 2033 年,AGI 成為像農業/工業革命一樣改變物種的到 2044 年↩︎

  74. AI 增強預測:LLM 助手提高人類預測準確性 – 「參與者(N = 991)回答了一組六個預測問題,並有選項在整個過程中諮詢他們分配的 LLM 助手。我們的預先註冊的分析表明,與對照組相比,與我們每個前沿 LLM 助手互動顯著提高了 24% 到 28% 的預測準確性。探索性分析顯示一個預測專案中有一個明顯的異常值效應,排除它之後我們發現超級預測助手提高了 41% 的準確性↩︎ ↩︎

  75. Anthropic 的負責任擴充套件政策(2023)受美國政府生物安全級別(BSL)啟發,他們定義了 ASL-1(舊的國際象棋 AI)、ASL-2(當前 LLM)、ASL-3 ↩︎

  76. Sandbrink et al 2022 ↩︎

  77. 來自 Stuart Russell,AI 最流行教科書的合著者:禁止致命自主武器:一種教育 ↩︎

  78. 引自 Tenet(2020),最「是的,這是一部諾蘭電影」的諾蘭電影。 ↩︎

  79. 例如,人類偏好的強化學習(RLHF),一種讓 AI 匯入人類價值觀的方法,就是將 Base GPT(一個自動完成工具)變成ChatGPT(一個真正的聊天機器人)的原因。同樣,提高 AI「直覺」的穩健性將有助於製造更好的 AI 醫療診斷和自動駕駛汽車。 ↩︎

  80. 天花曾經每年奪走數百萬人的生命。以下是人類如何戰勝它。,Kelsey Piper 著 ↩︎

  81. 來源:Our World In Data ↩︎

  82. 2025 年 3 月 MIT 新聞:研究:臭氧層空洞正在癒合,感謝全球減少 CFC。「新結果以高統計置信度表明臭氧恢復進展順利。」 ↩︎

  83. 2021 年經典推文 by alex blechman ↩︎

  84. 開頭比喻來自 Nick Bostrom 2014 年的經典著作《超級智慧》 ↩︎

  85. CAIS 術語表條目 ↩︎

  86. 超級智慧代理構成災難性風險:科學家 AI 能提供更安全的路徑嗎?,Bengio 等人 2025 ↩︎

  87. 來自 Chris Olah 對 AGI 安全的看法,Evan Hubinger 著:「我們可以使用 ML 作為顯微鏡——一種學習世界的方式,而不直接在其中採取行動。也就是說,與其訓練一個 RL 代理,你可以在一堆資料上訓練一個預測模型,並使用可解釋性工具來檢查它,弄清楚它學到了什麼,然後使用這些洞察來告知——無論是有人類在迴路中還是以某種自動化方式——你實際上想在世界上採取的任何行動。」 ↩︎

  88. 分位器:有限最佳化中最大化器的更安全替代方案,Jessica Taylor 2016 ↩︎

  89. 古德哈特定律,換句話說:「當你獎勵一個指標時,它通常會被操弄。↩︎

  90. 識字的解剖學特徵,Carreiras 等人 2009 ↩︎

  91. 在這裡引用我自己,呵呵:如何成為半人馬,Nicky Case (2018) 不過,見下一個腳註,主要類比現在已經過時了。 ↩︎

  92. 來自 Gwern ↩︎

: 查看所有註腳 👣

還有,可展開的「果核」小知識:

: 更多關於瑞士乳酪模型
: 穩健可擴展監督的數學
: 可擴展監督,額外說明
: 迭代蒸餾與放大,解釋
: (刪除場景)「臨界質量」漫畫
: 「未來生命」演算法的修正
: 「自我修改代理」的非正式文獻回顧
: 最壞/平均/最好情況最佳化的優缺點
: 學習價值觀,額外說明
: AI 的經濟學
: 人類相對於大型語言模型的優勢