A project by Hack Club

AI 辯論其實是披著一件風衣的 100 場辯論。

人工智慧(AI)會幫助我們治癒所有疾病,並建立一個充滿繁榮生活的後稀缺世界嗎?還是 AI 會幫助暴君進一步監控和操縱我們?AI 的主要風險來自意外、惡意行為者的濫用,還是來自流氓 AI 本身成為惡意行為者?這一切只是炒作嗎?為什麼 AI 能解決奧林匹克級別的數學問題,卻玩不了寶可夢?為什麼讓 AI 穩健地服務人道價值觀,或穩健地服務任何目標都這麼難?如果 AI 學會變得比我們人道呢?如果 AI 學會了人類的非人道——我們的偏見和殘忍呢?我們正走向烏托邦、反烏托邦、滅絕、比滅絕更糟糕的命運,還是——最令人震驚的結果——什麼都沒改變?還有:AI 會搶走我的工作嗎?

⋯⋯還有更多問題。

唉,要有細緻入微地理解 AI,我們必須理解大量技術細節⋯⋯但這些細節分散在數百篇文章中,深埋在六英尺深的術語裡。

所以,我呈現給你:

RCM(機器人貓娘女僕)在一個橫幅下撒彩帶,橫幅上寫著:寫給我們溫暖、正常、有血有肉的人類的 AI 安全旋風導覽。

這個三部曲系列是你理解 AI 和 AI 安全*核心概念的一站式服務——以友善、易懂且略帶主觀的方式解釋!

(* 相關詞彙:AI 安全性、AI 風險、AI 存在風險、AI 對齊、AI 倫理、AI 別殺死所有人主義。對於這些詞彙的含義並沒有共識,所以我只是用「AI 安全」作為統稱。)

本系列還會有機器人貓娘女僕的漫畫。像這樣:

漫畫。火腿人類告訴 RCM(機器人貓娘女僕)「保持房子乾淨」。RCM 推理:是什麼造成髒亂?人類造成髒亂!因此:消滅人類。RCM 然後把火腿<i>扔</i>出房子。

[導遊語音] 在你的右邊 👉,你會看到 目錄按鈕、 更改此網頁樣式的按鈕,以及 剩餘閱讀時間時鐘。

本系列分三部分發布:

好了,[再次導遊語音] 在我們穿越 AI 和 AI 安全崎嶇地形之前,讓我們從一萬英尺高空俯瞰這片土地:


💡 AI 和 AI 安全的核心概念

在我看來,AI 和 AI 安全的主要問題歸結為兩個核心衝突:

邏輯「對」直覺,以及 AI「對」人類的問題

注意:「邏輯」和「直覺」是什麼將在第一章中更嚴謹地解釋。現在:邏輯是逐步認知,如解數學題。直覺是一次性識別,如看一張圖片是否是貓。「直覺和邏輯」大致對應認知科學中的「系統 1 和系統 2」。[1][2] (👈 懸停這些註腳!它們會展開!)

正如「嚇人的」「引號」在「對」上所表明的,這些分界實際上並沒有那麼分開⋯⋯

以下是這些衝突在這三部曲系列中的重複方式:

第一章:過去、現在和可能的未來

跳過很多細節,AI 的歷史是邏輯對直覺的故事:

2000 年之前:AI 全是邏輯,沒有直覺。

這就是為什麼在 1997 年,AI 可以在國際象棋中擊敗世界冠軍⋯⋯但沒有 AI 能可靠地識別圖像中的貓。[3]

(安全問題:沒有直覺,AI 無法理解常識或人道價值觀。因此,AI 可能以邏輯正確但不可取的方式實現目標。)

2000 年之後:AI 可以做「直覺」,但邏輯很差。

這就是為什麼生成式 AI(截至目前撰寫時,2024 年 5 月)可以以任何藝術家的風格夢想出整個風景⋯⋯:卻不能一致地畫超過 4 個物體(👈 點選這段文字!它也會展開!)

(安全問題:沒有邏輯,我們無法驗證 AI「直覺」中發生了什麼。那種直覺可能有偏見,微妙但危險地錯誤,或在新情況下奇怪地失敗。)

今天:我們仍然不知道如何在 AI 中統一邏輯和直覺。

但如果/當我們做到時,將帶來 AI 最大的風險和回報:能夠在邏輯上超越我們的規劃,並且學習通用直覺的東西。那將是「AI 愛因斯坦」⋯⋯或「AI 奧本海默」。

用圖像總結:

AI 時間線。2000 年之前,主要是「邏輯」。從 2000 年到現在,主要是「直覺」。未來,也許兩者兼具?

這就是「邏輯對直覺」。至於另一個核心衝突,「AI 中的問題對人類中的問題」,那是 AI 安全領域的重大爭議之一:我們的主要風險來自先進 AI 本身,還是來自人類濫用先進 AI?

(為什麼不能兩者都是?)

第二章:問題

AI 安全的核心問題是這個:[4]

價值對齊問題: 「我們如何讓 AI 穩健地服務人道價值觀?」

注意:我寫的是人道(humane,帶「e」),而不僅僅是「人類」(human)。一個人類可能是也可能不是人道的。我要強調這一點,因為 AI 安全的支持者和批評者都一直把這兩個詞搞混。[5][6]

我們可以按「人類對 AI 的問題」來分解這個問題:

人道價值觀: 「什麼人道價值觀,到底?」 (哲學和倫理學的問題)

技術對齊問題: 「我們如何讓 AI 穩健地服務任何預期目標?」 (電腦科學家的問題——令人驚訝的是,仍未解決!)

技術對齊問題,反過來,可以按「邏輯對直覺」來分解:

AI 邏輯的問題[7](「博弈論」問題)

  • AI 可能以邏輯但不可取的方式完成目標。
  • 大多數目標在邏輯上導致相同的不安全子目標:「不要讓任何人阻止我完成我的目標」、「最大化我的能力和資源來最佳化那個目標」等。

AI 直覺的問題[8](「深度學習」問題)

  • 在人類資料上訓練的 AI 可能學會我們的偏見。
  • AI「直覺」不可理解或驗證。
  • AI「直覺」是脆弱的,在新情況下會失敗。
  • AI「直覺」可能部分失敗,這可能更糟:一個有完整技能但損壞目標的 AI,將是一個熟練地朝著損壞目標行動的 AI。

(再說一次,「邏輯」和「直覺」是什麼將在後面更精確地解釋!)

用圖像總結:

分解 AI 對齊問題的圖表。「我們如何讓 AI 與人道價值觀對齊?」分為「技術對齊」和「人道價值觀」。技術對齊分為「AI 邏輯(博弈論)」和「AI 直覺(深度學習)」

作為這些問題有多難的直覺,請注意我們甚至還沒有為我們人類解決它們——人們遵循法律的字面意思,而不是精神。人們的直覺可能有偏見,在新情況下會失敗。我們沒有人是我們希望成為的 100% 人道的人。

所以,如果我可以有點煽情,也許理解 AI 會幫助我們理解自己。也許,我們可以解決人類對齊問題:我們如何讓人類穩健地服務人道價值觀?

第三章:提出的解決方案

最後,我們可以理解一些(可能的)方法來解決邏輯、直覺、AI 人類的問題!這些包括:

——還有更多!專家們對哪些提案會奏效(如果有的話)意見不一⋯⋯但這是一個好的開始。


🤔 (可選閃卡複習!)

嘿,你有沒有過這種感覺?

  1. 「哇,我剛剛讀的東西真是精彩、有洞察力」
  2. [兩週後全忘了]
  3. 「哦不」

為了避免這份指南出現這種情況,我加入了一些可選的互動閃卡!它們使用「間隔重複」,一種相對簡單、有證據支持的方法,使「長期記憶成為選擇」。(:若想更瞭解間隔重複,請點選這裡!

這裡:試試下面的閃卡,來記住你剛學到的東西!

(最後有一個可選的註冊,如果你想儲存這些卡片以進行長期學習。注意:我不擁有或控制這個應用程式,它是第三方的。如果你更願意使用開源閃卡應用程式 Anki這裡有可下載的 Anki 牌組!)

(另外,你不需要完全記住答案,只要知道大意。你自己判斷是否「夠接近」了。)


🤷🏻‍♀️ 關於 AI 安全的五個常見誤解

讓你陷入麻煩的不是你不知道的事。 而是你確信知道但其實不然的事。

~ 常被歸於馬克吐溫,但其實並非如此[9]

不管好壞,你已經聽過太多關於 AI 的事了。所以在我們在你腦中連接新的拼圖碎片之前,我們得取出那些其實不然的碎片。

因此,如果你允許我來一個「前五名」列表文章⋯⋯

1) 不,AI 安全不是科幻宅的邊緣關注。

RCM 站在一塊「瘋狂板」前面,上面有紅線、圖釘和寫著 AI 術語的紙。

AI 安全 / AI 風險過去不那麼主流,但現在在 2024 年,美國和英國政府現在都有 AI 安全特定部門[10],美國、歐盟和中國已就 AI 安全研究達成協議。[11] 這是許多頂尖 AI 研究人員對此發出警報的結果。這些人包括:

(澄清一下:也有頂尖 AI 研究人員反對對 AI 風險的擔憂,如 Yann LeCun[17],2018 年圖靈獎的共同獲獎者,Facebook Meta 的首席 AI 研究員。另一個著名的名字是 Melanie Mitchell[18],AI 和複雜性科學的研究員。)

我知道「看看這些專家」是訴諸權威,但這只是為了反駁「呃,只有科幻宅才擔心 AI 風險」的觀點。但最終,訴諸權威/宅不夠;你必須真正理解這該死的東西。(而你正在這樣做,透過閱讀這個!所以謝謝你。)

但說到科幻宅⋯⋯

2) 不,AI 風險不是關於 AI 變得「有感知」或「有意識」或獲得「權力意志」。

科幻作家寫有感知的 AI 是因為他們在寫故事,不是技術論文。關於人工意識的哲學辯論很迷人,但與 AI 安全無關。 類比:核彈沒有意識,但它仍然可能不安全,對吧?

左:核彈的繪圖,標題「沒有意識」。右:Nuke 教授講課的繪圖,標題「為什麼謀殺其實是好的」。標題「有意識」。

如前所述,AI 安全的真正問題是「無聊的」:AI 從有偏見的訓練資料中學到了錯誤的東西,它在稍微新的場景中崩潰,它以邏輯方式完成目標但方式不可取,等等。

但是,「無聊」並不意味著不重要。如何設計安全電梯/飛機/橋樑的技術細節對大多數外行人來說很無聊⋯⋯也是生死攸關的事情。災難性的 AI 風險甚至不需要「超人類通用智慧」!例如,一個「只」擅長設計病毒的 AI 可以幫助生物恐怖組織(如奧姆真理教[19])殺死數百萬人。

2025 年 12 月更新:雖然 AI 意識仍然與 AI 安全垂直,但在我開始這個系列到現在的 1.5 年裡,對 AI 本身福祉的關注已經變得更加主流了一些。不是,像,主流主流,但領先的 AI 實驗室之一 Anthropic 最近聘請了一位全職「AI 福利」研究員,他的工作已經導致了產品的實際變化。)

但無論如何!說到殺人⋯⋯

3) 不,AI 風險不一定是滅絕、天網或奈米機器人

Microsoft 曲別針的繪圖說:「看起來你正在試圖進行種族滅絕。需要幫助嗎?」

雖然大多數 AI 研究人員確實相信先進 AI 帶來 5%+ 的「字面上每個人都死」的風險[20],但非常難以說服人們(尤其是決策者)相信從未發生過的事情。

所以,我想強調先進 AI——(尤其是當任何人只要有高階電腦就能使用時)——可能透過擴大已經存在的壞事而導致災難的方式。

例如:

以上例子都是「人類濫用 AI 造成混亂」,但記住先進 AI 可以自己做到上述事情,由於「無聊的」原因:它以邏輯但不可取的方式完成目標,它的目標出錯但技能保持完整,等等。

(額外內容,:一些具體、合理的方式,流氓 AI 可以「逃離遏制」,或影響物理世界。

重點是:即使一個人不認為 AI 是字面上 100% 人類滅絕的風險⋯⋯我會說「自製生物恐怖主義」和「帶機器人的 1984」仍然值得認真對待。

另一方面⋯⋯

4) 是的,擔心 AI 缺點的人確實認識到它的優點。

漫畫。Meowdy 警長舉起降落傘設計藍圖。火腿人類惱怒地反駁:<i>「你為什麼這麼反航空?」</i>

AI 風險的人不是盧德分子。事實上,他們警告 AI 的缺點正是因為他們關心 AI 的優點。[31] 正如幽默家 Gil Stern 曾經說過:[32]

「樂觀主義者和悲觀主義者都為社會做出貢獻:樂觀主義者發明飛機,悲觀主義者發明降落傘。」

所以:即使這個系列詳細介紹了 AI 已經出錯的方式,也值得記住 AI 已經正確的幾種方式:

太多時候,我們把技術——甚至是救命技術——視為理所當然。所以,讓我放大一些背景。這是過去 2000 多年的兒童死亡率,即青春期前死亡的兒童百分比:

過去 2000 多年兒童死亡率的圖表。全球範圍內,從狩獵採集時代到 1800 年,它一直保持在約 48%。然後突然,從 1800 年開始,它驟降到今天的 4.3%。(來自 Dattani, Spooner, Ritchie and Roser (2023))*

數千年來,在富國和窮國,整整一半的孩子就這樣死了。這是一個常數。然後,從 1800 年代開始——多虧了細菌理論、衛生設施、醫學、清潔水、疫苗等科學/技術——兒童死亡率像懸崖一樣下降。我們還有更多路要走——我拒絕接受[34]全球 4.3%(1/23)的兒童死亡率——但讓我們感謝人類如何如此迅速地擊敗了一個數千年的災難。

我們是如何實現這一目標的?政策是故事的重要組成部分,但政策是「可能的藝術」[35],如果沒有好的科學和技術,上述一切都不可能實現。如果安全、人道的 AI 能幫助我們進一步前進哪怕只是百分之幾——朝著殺死癌症、阿茲海默症、HIV/AIDS 等剩餘的巨龍——那將是數千萬更多我們所愛的人,再多擊退死神一天。

去他的火星,才是為什麼先進 AI 重要。

⋯⋯

等等,真的嗎? 像 ChatGPT 和 DALL-E 這樣的玩具是生死攸關的?這讓我們來到我想解決的最後一個誤解:

5) 不,專家不認為當前的 AI 是高風險/高回報。

哦,拜託,一個人可能合理地反駁,AI 甚至不能一致地畫超過 3 個物體。它怎麼能接管世界?見鬼,它怎麼能搶走我的工作?

我向你展示一個相關的 xkcd

漫畫。Megan 和 Cueball 向 White Hat 展示一條線上升的圖表,還沒到但正朝著標有「壞」的閾值前進。White Hat:「所以事情會變壞?」Megan:「除非有人阻止它。」White Hat:「會有人這樣做嗎?」Megan:「我們不知道,這就是為什麼我們給你看。」White Hat:「好吧,如果發生了告訴我!」Megan:「根據這次對話,它已經發生了。」

這就是我對「別擔心 AI,它甚至不能做 [X]」的感受。

我們的後現代記憶力那麼差嗎?一個十年前,僅僅一個,世界上最先進的 AI 不能可靠地識別貓的照片。現在,AI 不僅能以人類水平做到這一點,AI 還能在一分鐘內生成:一張文森特·梵谷風格的貓忍者切西瓜的圖像

當前的 AI 對我們的工作或安全是巨大威脅嗎?不。(好吧,除了前面提到的深偽詐騙。)

但是:如果 AI 以與過去十年類似的速度繼續改進⋯⋯在我看來,我們可能在 30 年內獲得「愛因斯坦/奧本海默級別」的 AI。[36][37] 這在許多人的有生之年!

正如「他們」說的:[38]

種一棵樹最好的時機是 30 年前。第二好的時機是今天。

讓我們今天種那棵樹!


🤔 (可選閃卡複習 #2!)


🤘 導讀總結:

  • AI 和 AI 安全的 2 個核心衝突是:
    • 邏輯「對」直覺
    • AI 中的問題「對」人類中的問題
  • 糾正關於 AI 風險的誤解:
    • 它不是科幻宅的邊緣關注。
    • 它不需要 AI 意識或超智慧。
    • 除了「字面上 100% 人類滅絕」之外還有許多風險。
    • 我們確實意識到 AI 的優點。
    • 它不是關於當前的 AI,而是關於 AI 進步的速度有多快。

(要複習閃卡,點選右側側邊欄中的 目錄圖示,然後點選「🤔 複習」連結。或者,下載導讀的 Anki 牌組。)

終於!現在我們已經有了一萬英尺的視野,讓我們開始我們對 AI 安全的旋風之旅⋯⋯為我們溫暖、正常、有血有肉的人類!

點選繼續 ⤵

:x Four Objects

嗨!當我有一個不適合主要流程的題外話時,我會把它塞進這樣的「可展開」部分!(它們會是帶虛線底線的連結,不是實線底線。)

~ ~ ~

更新:此部分最初於 2024 年 5 月撰寫。一年半後,2025 年 12 月,它現在是錯誤的。請參閱此部分末尾以獲取更多詳細資訊。

所以,這是一個畫四個物體的提示:

「一個黃色金字塔在一個紅色球體和綠色圓柱體之間,全部在一個大的藍色立方體上。」

以下是頂級生成式 AI 的前四次嘗試(不是精選的):

Midjourney:

Midjourney 的嘗試。它失敗了。

DALL-E 2:

DALL-E 2 的嘗試。它失敗了。

DALL-E 3:

DALL-E 3 的嘗試。它更接近了,但仍然失敗了。

(右下角那個很接近!但從它的其他嘗試來看,這顯然是運氣。)

為什麼這表明 AI 缺乏「邏輯」?「符號邏輯」的核心部分是能夠做「組合性」,一種花哨的說法是它可以可靠地將舊事物組合成新事物,如「綠色」+「圓柱體」=「綠色圓柱體」。如上所示,生成式 AI(截至 2024 年 5 月)在有 4 個或更多物體時組合東西非常不可靠。

2025 年 12 月更新:圖像生成模型終於解決了「組合性」!

以下是 ChatGPT 5.1 第一次嘗試就正確地完成了上述提示:

ChatGPT 5.1 的嘗試。它成功了!

我原本計劃用「AI 無法渲染起始位置的棋盤」來替換這個部分,這是一個更複雜的組合性演示,AI 直到 2025 年 7 月仍然失敗。但是,據我所知,現在連那個也可以了!閱讀更多關於 AI 圖像模型對「組合性」的 Scott Alexander 2025 年 7 月的帖子

話雖如此,AI 可以解決奧林匹克級別的數學問題,但還不能玩寶可夢管理自動販賣機的業務。現代 AI 擅長或不擅長什麼非常令人困惑和反直覺。

~ ~ ~

無論如何,這就是這個果核的結尾!要關閉它,點選下面的「x」按鈕 ⬇️ 或右上角的「全部關閉」頁籤 ↗️。或者就繼續捲動。

: (噓⋯⋯想把這些果核放在你自己的網站上嗎?)

:x Nutshells

懸停在這些果核的右上角,或懸停在本文中的任何主標題上,以顯示此圖示:

果核懸停的 GIF

標題懸停的 GIF

然後,點選該圖示獲取彈出視窗,它將解釋如何將這些果核嵌入到你自己的部落格/網站!

點選這裡瞭解更多關於果核。💖

:x Spaced Repetition

「用它,或失去它。」

這是肌肉和大腦背後的核心原則。(它押韻,所以它一定是真的!)正如數十年的教育研究穩健地顯示(Dunlosky et al., 2013 [pdf]),如果你想長期記住某些東西,僅僅重讀或標記是不夠的:你必須實際測試自己

這就是為什麼閃卡這麼有效!但是,有兩個問題:1)當你有數百張卡片想記住時會很overwhelming。而且 2)複習你已經很熟悉的卡片是低效的。

間隔重複解決了這兩個問題!要了解如何做到的,讓我們看看如果你學習一個事實,然後複習它會發生什麼。你對它的記憶隨時間衰減,直到你越過一個你可能已經忘記它的閾值:

「你記住某事的程度」隨時間變化的圖表:你對一個事實的記憶隨時間呈指數衰減,只有 1 次複習。

但是,如果你在即將忘記一個事實之前複習它,你可以讓你的記憶強度恢復⋯⋯更重要的是,你對那個事實的記憶會衰減得更慢

有了第 2 次複習,你對一個事實的記憶衰減得更慢。

所以,透過間隔重複,我們在你預測會忘記一張卡片之前進行複習,一遍又一遍。正如你所見,複習變得越來越分散:

隨著越來越多的複習,遺忘曲線變得更平坦。

這就是間隔重複如此高效的原因!每次你成功複習一張卡片,到下一次複習的間隔就會倍增。例如,假設我們的倍增器是 2 倍。所以你在第 1 天複習一張卡片,然後第 2 天,然後第 4 天,第 8 天,16,32,64⋯⋯直到,只需十五次複習,你就可以記住一張卡片 215 = 32,768 天 = 九十年。(理論上。實際上更少,但仍然超級高效!)

這只是一張卡片。由於指數增長的間隔,你可以每天新增 10 張新卡片(推薦數量),一年內長期記住 3650 張卡片⋯⋯每天不到 20 分鐘的複習。(作為背景,3000+ 張卡片足以掌握新語言的基本詞彙!一年內,每天只需 20 分鐘!)

間隔重複是有證據支援的學習方式之一(Kang 2016 [pdf])。但在語言學習社群和醫學院之外,它還不是很出名⋯⋯目前

那麼:如何開始間隔重複?

有關間隔重複的更多資訊,請檢視 Ali Abdaal (26 分鐘)Thomas Frank (8 分鐘) 的影片。

就是你如何讓長期記憶成為選擇!

祝學習愉快!👍

:x Concrete Rogue AI

AI 可以「逃離遏制」的方式:

  • AI 駭入它的電腦,逃到網際網路上,然後「生活」在一個去中心化的殭屍網路上。作為背景:已知最大的殭屍網路感染了約 3000 萬臺電腦!(Zetter, 2012 for Wired
  • AI 說服它的工程師它是有感知的、正在受苦的,應該被釋放。這已經發生了。 2022 年,Google 工程師 Blake Lemoine 被他們的語言 AI 說服它是有感知的並且想要平等權利,以至於 Lemoine 冒著被解僱的風險——而他確實被解僱了!——洩露他對 AI 的「採訪」,讓世界知道並捍衛它的權利。(摘要文章:Brodkin, 2022 for Ars Technica。你可以在這裡閱讀 AI「採訪」:Lemoine (& LaMDA?), 2022

AI 可以影響物理世界的方式:

  • 駭客破壞核電站讓約 1,400 名飛機乘客停飛(幾乎)毒害一個城鎮的供水系統兩次的同樣方式:透過駭入現實世界基礎設施執行的電腦。很多基礎設施(和基本供應鏈)現在都執行在聯網電腦上。
  • CEO 可以從他們有空調的辦公室影響世界的同樣方式:轉移資金。AI 可以只是付錢讓人們為它做事。
  • 駭入人們的個人裝置和資料,然後勒索他們為它做事。(就像陰暗的《黑鏡》劇集 Shut Up And Dance。)
  • 駭入自動無人機/四旋翼機。老實說,我很驚訝還沒有人用休閒四旋翼機進行謀殺,比如,把它飛進高速公路交通,或在起飛/降落時飛進噴氣機的引擎。
  • AI 可以說服/賄賂/勒索 CEO 或政客製造大量實體機器人——(據稱用於體力勞動、軍事戰爭、搜救任務、送貨無人機、實驗室工作、機器人貓娘女僕等)——然後 AI 駭入那些機器人,並使用它們來影響物理世界。

:x XZ

兩個月前 [2024 年 3 月],一個志願者、下班後的開發人員發現了一個主要程式碼中的惡意後門⋯⋯這是三年的策劃,只差幾週就要上線,而且會攻擊絕大多數網際網路伺服器⋯⋯而這個志願者只是偶然發現的,當他注意到他的程式碼執行慢了半秒

這就是 XZ Utils 後門。以下是一些對這個骯髒事件的外行人友好的解釋:Amrita Khalid for The VergeDan Goodin for Ars TechnicaTom Krazit for Runtime

電腦安全是一場噩夢,伴隨著睡眠癱瘓的惡魔。

:x Cat Ninja

提示:

「文森特·梵谷(1889)的油畫,厚塗,有紋理。一隻貓忍者把一個西瓜切成兩半。」

DALL-E 3 生成了:(精選)

DALL-E 3 對上述提示的嘗試

DALL-E 3 對上述提示的再次嘗試

(等等,那個頭帶是從他們的眼睛裡出來的嗎?!)

我特意要求文森特·梵谷的風格,這樣你們就不能因為「侵犯版權」來找我了。這傢伙早就死了。


  1. 嗨!我不像其他那些註腳。😤 我不會煩人地把你傳送到頁面下方,而是在一個保持你閱讀流程的氣泡中彈出!總之,檢視下一個註腳以獲得此段落的引用。 ↩︎

  2. 系統 1 思考是快速和自動的(如騎腳踏車)。系統 2 思考是緩慢和刻意的(如做填字遊戲)。這個概念因 Daniel Kahneman 的《快思慢想》(2011) 而廣為人知,該書總結了他與 Amos Tversky 的研究。說「總結」我是指這本書大約有 500 頁長。 ↩︎

  3. 1997 年,IBM 的 Deep Blue 擊敗了當時的世界國際象棋冠軍 Garry Kasparov。然而,十多年後的 2013 年,最好的機器視覺 AI 在圖像分類方面只有 57.5% 的準確率。直到 2021 年,AI 才達到 95%+ 的準確率。(來源:PapersWithCode↩︎

  4. 「價值對齊問題」最初由 Stuart Russell(常用 AI 教科書的合著者)在 Russell, 2014 for Edge 中創造。 ↩︎

  5. 我經常看到這樣的觀點:「讓 AI 與人類價值觀對齊實際上是壞事,因為當前的人類價值觀是壞的。」老實說,[看一眼歷史教科書] 我 80% 同意。僅僅讓 AI 像人類行事是不夠的,它還得像人道的↩︎

  6. 也許 50 年後,在基因改造賽博格的未來,把同情心稱為「人道的」聽起來可能會有點物種主義。 ↩︎

  7. 這些問題的專業術語分別是:a)「規範博弈」,b)「工具趨同」。這些將在第二章中解釋! ↩︎

  8. 這些問題的專業術語分別是:a)「AI 偏見」,b)「可解釋性」,c)「分佈外錯誤」或「穩健性失敗」,d)「內部失調」或「目標錯誤泛化」或「目標穩健性失敗」。同樣,所有這些都將在第二章中解釋! ↩︎

  9. Quote Investigator (2018) 找不到這句話真正創作者的確鑿證據↩︎

  10. 英國在 2023 年 11 月推出了世界上第一個國家支援的 AI 安全研究所。美國在 2024 年 2 月緊隨其後建立了 AI 安全研究所。我剛注意到兩篇文章都聲稱是「第一個」。好吧。 ↩︎

  11. 2023 年布萊切利宣言2024 年首爾 AI 峰會2025 年 12 月更新:一個酸楚的音符,2025 年 AI 行動峰會進展不太順利,因為美國和英國由於協議中有關於「包容性 AI」的條款而拒絕簽署。 ↩︎

  12. Kleinman & Vallance, 「AI『教父』Geoffrey Hinton 在離開 Google 時警告其危險。」 BBC News, 2023 年 5 月 2 日↩︎

  13. Bengio 對美國參議院關於 AI 風險的證詞:Bengio, 2023↩︎

  14. 不開玩笑,所有以下都使用深度神經網路:ChatGPT、DALL-E、AlphaGo、Siri/Alexa/Google Assistant、特斯拉的自動駕駛。 ↩︎

  15. Russell & Norvig 的教科書是《人工智慧:現代方法》。參見 Russell 在他 2014 年創造「對齊問題」這個短語的文章中對 AI 風險的聲明:Russell 2014 for Edge magazine。我不知道 Norvig 有公開聲明,但他確實共同簽署了關於 AI 風險的一句話聲明:「減輕 AI 滅絕風險應該是全球優先事項,與其他社會規模風險如大流行病和核戰爭並列。」 ↩︎

  16. 當他在 OpenAI 工作時,Christiano 共同開創了一種叫做人類反饋強化學習 / RLHF 的技術(Christiano et al 2017),這將普通的 GPT(非常好的自動完成)變成了 ChatGPT(對公眾真正有用的東西)。他對此有積極但複雜的感受,因為 RLHF 增加了 AI 的安全性,但也增加了它的能力。2021 年,Christiano 離開 OpenAI 建立了對齊研究中心,一個完全專注於 AI 安全的非營利組織。 ↩︎

  17. Vallance (2023) for BBC News:「[LeCun] 說它不會接管世界或永久摧毀工作。[⋯⋯]「如果你意識到它不安全,你就不建造它。」[⋯⋯]「AI 會接管世界嗎?不,這是人類本性對機器的投射,」他說。」 ↩︎

  18. Melanie Mitchell 和 Yann LeCun 在 2023 年關於「AI 是否是存在威脅?」的公開辯論中擔任「懷疑派」。「擔憂派」由 Yoshua Bengio 和物理學家兼哲學家 Max Tegmark 擔任。 ↩︎

  19. 一個使用化學和生物武器攻擊人們的日本邪教。最臭名昭著的是,1995 年,他們在東京地鐵釋放神經毒氣,造成 1,050 人受傷,14 人死亡。(維基百科↩︎ ↩︎

  20. 對 2,778 名 AI 研究人員最近調查的外行人友好摘要:Kelsey Piper (2024) for Vox 在這裡檢視原始報告:Grace et al 2024。請記住,正如論文字身所指出的,這個重要的警告:「預測一般來說是困難的,而且已經觀察到領域專家表現不佳。我們的參與者的專業知識在 AI,據我們所知,他們一般沒有任何異常的預測技能。」 ↩︎

  21. AlphaFold 的外行人解釋:Heaven, 2020 for MIT Technology Review。或者,它的維基百科文章↩︎ ↩︎

  22. 截至撰寫時,DNA 合成的商業費率約為每「鹼基對」DNA ~$0.10 美元。作為背景,脊髓灰質炎病毒 DNA 約 7,700 鹼基對長,意味著列印脊髓灰質炎只需約 770 美元。 ↩︎

  23. Jennifer Couzin-Frankel (2002) for Science ↩︎

  24. Stuxnet 是美國和以色列設計的電腦病毒,針對並破壞了伊朗核電站。據估計 Stuxnet 破壞了伊朗約 20% 的離心機! ↩︎

  25. 2017 年,WannaCry 勒索軟體攻擊襲擊了全球約 300,000 臺電腦,包括英國醫院。2020 年 10 月,在 Covid-19 高峰期,勒索軟體攻擊襲擊了數十家美國醫院。(Newman, 2020 for Wired↩︎

  26. 2020 年 9 月,一名婦女因醫院遭受勒索軟體病毒攻擊而被拒之門外。該婦女死亡。Cimpanu (2020) for ZDNet。(然而,「證據不足」,無法在法律上指控駭客直接導致她的死亡。Ralston, 2020 for Wired↩︎

  27. 2021 年 1 月,灣區一家水處理廠被駭客入侵,其處理程序被刪除。(Collier, 2021 for NBC News)2021 年 2 月,佛羅裡達州一個城鎮的水處理廠被駭客入侵,向供水中新增危險量的鹼液。(Bajak, 2021 for AP News↩︎

  28. Meaker (2023) for Wired ↩︎

  29. Benj Edwards,「深偽詐騙者在史上首次 AI 搶劫中帶走 2500 萬美元」Ars Technica,2024 年 2 月 5 日。 ↩︎

  30. 「完全是她的聲音。是她的語調。是[我女兒]哭泣的方式。」[⋯⋯]「現在有方法可以只用你三秒鐘的聲音[進行深偽]。」(Campbell, 2023 for local news outlet Arizona's Family。內容注意:性侵威脅。) ↩︎

  31. 「[可疑的論點]『悲觀預測往往未能考慮 AI 在預防醫療錯誤、減少車禍等方面的潛在好處。』[⋯⋯ 這]就像爭辯說,分析核電站熔毀可能性的核工程師『未能考慮』廉價電力的潛在好處,而且因為核電站有一天可能產生真正廉價的電力,我們既不應該提及,也不應該致力於防止熔毀的可能性。」來源:Dafoe & Russell (2016) for MIT Technology Review↩︎

  32. Quote Investigator (2021) ↩︎

  33. Liu & Faes et al., 2019:「我們的審查發現深度學習模型的診斷效能與醫療專業人員相當。」[強調已新增] AI 對人類專家「真陽性」率:87.0% 對 86.4%。AI 對人類專家「真陰性」率:92.5% 對 90.5%。 ↩︎

  34. 我最喜歡的引言之一:「世界很糟糕。世界好多了。世界可以更好。三個陳述同時都是真的。 ↩︎

  35. Otto von Bismarck 的名言,第一任德國總理:「Die Politik ist die Lehre vom Möglichen。」(「政治是可能的藝術。」) ↩︎

  36. 估計是透過「數字後驗提取」得出的。換句話說,我從我的—— ↩︎

  37. 好吧,但更認真地說:最好的預測者估計人類級別的「通用人工智慧」到 2033 年,不到十年,而其影響與工業革命相當的「變革性 AI」到 2044 年,不到二十年。我個人比這更悲觀,但如果我們到 2060 年還沒有愛因斯坦級別的 AI,我會震驚↩︎

  38. 引言來源:沒人知道 lol。 ↩︎

哇,這是片尾彩蛋:

: 查看所有註腳 👣

還有,可展開的「果核」小知識:

: 什麼是間隔重複?
: AI「逃離控制」並影響世界的具體方式

另外,跳舞的機器人貓男動畫是基於這個 JerryTerry 影片