辰东全部小说,盗墓笔记第二季,欢乐颂小说结局

技術(shù)真的可以“價值對齊”嗎？

2023-12-20
來源:騰訊研究院

2023年，以ChatGPT為代表的大型語言模型(LLM)集中爆發(fā)，讓各界都看到人工智能全新的可能性。但期冀總是與擔(dān)憂并存，隨著大模型在各領(lǐng)域的應(yīng)用深化，已經(jīng)沉寂許久的“AI威脅論”又開始甚囂塵上。在漫長的技術(shù)史中，技術(shù)恐懼如同擺脫不了的陰影，總是與技術(shù)發(fā)展隨行。這一次，面對一個前所未有的強大AI，擔(dān)憂的情緒同樣前所未有的強烈。在這種背景下，為了防止AI發(fā)展脫軌，“價值對齊”的概念又重新獲得眾多擁躉，成為一個熱門的領(lǐng)域。

先看看產(chǎn)業(yè)界的反應(yīng)，眾多人工智能公司與技術(shù)團隊開始入局“價值對齊”。2023年7月，AIGC的領(lǐng)軍企業(yè)OpenAI宣布成立一個新的AI對齊團隊。這個超級對齊團隊(superalignment)的目標(biāo)，是在4年內(nèi)弄清楚一個問題：如何讓超級智能的AI系統(tǒng)實現(xiàn)價值對齊和安全?

值得一提的是，這個超級對齊項目的領(lǐng)導(dǎo)人，就是前段時間Sam Altman罷免大戲的主人公之一、OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家llya Sutskever。而這場“宮斗”的核心導(dǎo)火索之一，就是價值觀之爭：一派以Sam Altman為代表，是商業(yè)化的代言人，以拓寬盈利路徑、發(fā)力應(yīng)用生態(tài)來支撐技術(shù)突破，而一派則主張審慎評估研究項目，倡導(dǎo)價值對齊，從現(xiàn)在開始為有可能超越人類的AI做準(zhǔn)備。

Jan Leike與llya Sutskever共同領(lǐng)導(dǎo)超級對齊項目。在一檔播客訪談中，Jan Leike表示，為了支持這一項目，OpenAI承諾將投入20%的計算資源用于對齊超級智能，而項目的核心則是探索如何利用AI來幫助人類解決AI價值對齊問題，即訓(xùn)練一個大致與人類水平相當(dāng)?shù)腁I自動對齊研究員，再借助自動對齊研究員找出對齊超級智能的方法。[1]

除了OpenAI，谷歌、微軟等科技公司也紛紛入局，成立了類似的價值對齊部門或團隊。而本文意圖討論的問題就是，在人工智能領(lǐng)域浩浩蕩蕩的“對齊運動”之外，“對齊”真的就這么好實現(xiàn)嗎?它又是否必須?

價值對齊，為什么又成焦點?

從AI的發(fā)展歷史來看，“價值對齊”并不是一個新鮮的概念。

哲學(xué)家、牛津大學(xué)人類未來研究所所長Nick Bostrom，曾經(jīng)提出一個經(jīng)典案例，很適合用來證明沒有與人類對齊價值觀的AI到底有多可怕。他描述了一個能力強大的超級智能機器，它被布置了“制作盡可能多的回形針”的任務(wù)，而它最終可能摧毀整個世界，把地球上所有的人和事物都變成制作回形針的材料，因為這些事物在它看來，都是可以用來完成任務(wù)的原子。

這個著名的“回形針隱喻”顯示了這樣一點邏輯：AI根本沒有與人類同樣的關(guān)于生命的價值概念。在這種情況下，AI的能力越大，造成威脅的潛在可能性就越大，傷害力也就越強。

“回形針隱喻”在前段時間有了一個現(xiàn)實世界的例子。根據(jù)BBC中文網(wǎng)的報道，今年11月，韓國慶尚南道一名機器人公司的檢修人員，被蔬菜分揀機器人壓死，原因是機器人把他當(dāng)成需要處理的一盒蔬菜，將其撿起并擠壓，導(dǎo)致其臉部和胸部受傷嚴(yán)重。而后他被送往醫(yī)院，但因傷重而不治身亡。[2]

這些事例充分顯示，一方面，我們正進入這樣一個時代：AI深入到生產(chǎn)與生活等等曾專屬于人類的各個領(lǐng)域，另外一方面，AI開始獲得日益強大的能力，以至于頻頻出現(xiàn)人類無法控制的情形。在這種情況下，如果“放任”機器完全以一套人類不能理解或者不能接受的規(guī)則行事，就有可能釀成災(zāi)難性后果。這已經(jīng)不是一個技術(shù)層面的問題，而是事關(guān)社會與人類安全的“政治問題”。

某種程度上，對于AI的發(fā)展，這也是一個必須直面的問題。因為如果不對這一問題加以重視，顯然會阻礙AI應(yīng)用進一步深化的可能性。畢竟，我們不太會想讓一個所謂“三觀不正”的AI安插在周圍，成為同事、家人、陪護員——甚至在某些領(lǐng)域的，主人。

可以說，人工智能參與到我們工作和生活的廣度和深度越大，有關(guān)AI價值觀的問題就越會引發(fā)更多的關(guān)注和擔(dān)憂。特別是當(dāng)AI開始被應(yīng)用到司法系統(tǒng)、醫(yī)療陪護、社會福利以及教育等公共領(lǐng)域中，這一問題顯然會演變成AI是否被社會層面認(rèn)可的關(guān)鍵因素。

所以，這就是價值對齊會成為當(dāng)下關(guān)鍵命題的原因。價值對齊的基本目標(biāo)，就是要確保無論人工智能發(fā)展到多么強大，都要為人類工作，而且是按照人類的價值觀進行工作。它所要保證的是，即便人工智能發(fā)展成通用人工智能(AGI)甚至是超人工智能——媲美或超越人類能力、能夠執(zhí)行任何任務(wù)、甚至已經(jīng)有了自我意識——其嵌入的道德原則、倫理規(guī)范和價值觀，也必須與人類的道德原則、倫理規(guī)范和價值觀保持一致。

不同的人工智能團隊正在采取不同的方法來推動人工智能的價值對齊。OpenAI、谷歌的DeepMind各有專注于解決價值對齊問題的團隊。除此之外，還有許多第三方監(jiān)督機構(gòu)、標(biāo)準(zhǔn)組織和政府組織，也將價值對齊視作重要目標(biāo)。較有代表性的是Max Tegmark創(chuàng)立的未來生命研究所，這家機構(gòu)曾推出過Asilomar Ai原則的人工智能發(fā)展指南清單，清單里提到的原則之一，就是價值對齊。

價值是什么?能對齊嗎?

表面上看，針對AI的價值對齊工作正在如火如荼地進行，無論是開發(fā)主體、政府組織、研究者都認(rèn)可其對于AI發(fā)展的價值和必要性。但在眾多討論中，似乎還缺少這一面的討論：價值，真的能對齊嗎?

這可能是價值對齊的命門之一，卻也是開展這項工作之前不得不思考和“對齊”的先決條件。這個問題的核心在于，在歷時性與縱時性的雙重緯度上，人類是否真正有一套恒定且統(tǒng)一的價值標(biāo)準(zhǔn)?

顯然，我們生活在一個文化多元、價值觀同樣多元的世界。大到對于生死的觀念，小到對于美丑的認(rèn)知，在不同的歷史時期、不同的地域都大相徑庭。那么，當(dāng)談到價值對齊，到底要跟AI對齊哪一套價值觀，就成了一個相當(dāng)復(fù)雜的難題：跟誰對齊?跟哪個國家、哪種文化對齊?跟哪個歷史階段對齊?總而言之，我們有許多價值體系，但從未有過一個統(tǒng)一的、可一概而論的價值體系，那在推動對AI的價值對齊之前，理應(yīng)對需要對齊的價值觀到底是什么達成一致。但是我們鮮少能看到類似的討論。

現(xiàn)實情況似乎變成了，誰掌握了最先進的AI，誰就擁有了“對齊”的權(quán)利，誰也就擁有了“定義”何為人類價值觀的權(quán)利，這顯然是我們不想看到的情形。

即便人類終于商量好要給AI“對齊”哪一套價值觀，下一個緊接而來的問題就是：把價值觀“對齊”給AI，是否真的可以實現(xiàn)?或者說，它是否能夠理解?平素我們討論“價值觀”，已經(jīng)默認(rèn)了其主體就是人類，人類是唯一擁有價值觀的物種，也是迄今唯一擁有自主意識的物種，所以“價值對齊”的吊詭性就浮現(xiàn)出來了：既然AI遠沒有能達到涌現(xiàn)出自主意識的地步，那我們要對齊的“價值”到底是什么?“對齊”的意義與本質(zhì)又是什么?

現(xiàn)在通行的幾種價值觀對齊方法，要么是技術(shù)性的，要么是規(guī)范性的。規(guī)范性的調(diào)整，與在人工智能系統(tǒng)中嵌入的倫理和道德原則有關(guān)，而技術(shù)性的手段則包括“基于人類反饋的強化學(xué)習(xí)(RLHF)”“合作逆強化學(xué)習(xí)(CIRL)”“監(jiān)督精調(diào)(Supervised Fine-tuning)”等幾種方式，其通行的模式，即是將通用的倫理原則轉(zhuǎn)化成現(xiàn)實可操作的技術(shù)路徑，避免AI的執(zhí)行路線發(fā)生扭曲。

問題在于，人類復(fù)雜的倫理原則與價值基礎(chǔ)，哪怕是最為簡單的“有益”“誠實”“公平”等概念，是否可以通過技術(shù)路徑進行抽象、簡化并實現(xiàn)對齊?Nick Bostrom同樣質(zhì)疑了這一點，他指出“創(chuàng)造能夠理解人類價值觀的人工智能對于確保我們的安全至關(guān)重要。然而，人類情感的復(fù)雜性和文化的多樣性，使得通過輸入幾行代碼來教導(dǎo)超級智能機器人人類到底關(guān)心什么，幾乎是個不可能的任務(wù)。”[3]

進一步說，隨著人工智能系統(tǒng)開始承擔(dān)更復(fù)雜的任務(wù)，能力模型更為復(fù)雜，人類開展對齊工作甚至是簡單評估，都將變得難以想象的復(fù)雜。如果強行對齊，一個極大的可能性就是會矮化AI的自身能力以與對齊工作進行適配，這同樣也是AI的可解釋和透明性工作面臨的難點。再說成本問題，AI的價值對齊涉及到人工智能的再訓(xùn)練，而這一過程本身就要耗費巨大成本，GPT-4的訓(xùn)練成本是1億多美元，更不要提訓(xùn)練過程對于環(huán)境的負(fù)面影響。

OpenAI利用AI自動對齊，研究員來解決價值對齊是一種思路，但這又會牽涉到新一輪的信任和監(jiān)督問題。正如Jan Leike所擔(dān)心的，如果我們讓系統(tǒng)接管部分甚至全部的對齊研究，它是否會試圖欺騙我們?是否會趁機篡權(quán)?以及它是否會有自我泄露(self-exfiltration)的風(fēng)險?這些都是必須考慮的問題。

價值對齊的迷思

不能否認(rèn)價值對齊的意義，這顯然是推動AI向著符合人類利益的方向發(fā)展的必要機制保障。但重點在于，我們不應(yīng)該低估價值對齊的復(fù)雜性，而是應(yīng)該意識到，AI的價值對齊問題，像AI的常識問題一樣復(fù)雜，并且像AI的意識問題一樣難以實現(xiàn)。

過往，在討論人類或人工智能的意識問題時，我們總是會不可避免地觸碰到那道“鴻溝”：在準(zhǔn)備好所有意識生成的組件以及意識生成之間，總是會有一條無法解釋的“天塹”，我們用涌現(xiàn)等詞匯來模糊化這一過程，但始終無法清晰剖解其原理。價值對齊也是一樣，我們知道討論它、實現(xiàn)它的必要性，也能夠列舉出幾條可能的技術(shù)實現(xiàn)路徑。但問題在于，沒有人能確保價值是否對齊成功了，更沒有人知道，這樣的對齊，對于人工智能的發(fā)展和人類社會的命運而言，到底是好事，還是壞事?

價值對齊的本質(zhì)，其實是信任問題，涉及到人對AI的信任。某種程度上，價值對齊為人類提供了一種安全感，讓AI按照人類的價值觀行事，無論如何看起來都更加可控了，從而有助于緩解人對AI能力快速增長的焦慮情緒。但是，“價值”是一個相當(dāng)復(fù)雜的概念，正如本文所進行的討論，目前階段 “價值對齊”的難點是，既很難搞清“價值”是什么，也無法確定“對齊”能否實現(xiàn)。在這種情況下，價值對齊似乎也成了一個偽問題。

同時，我們無法預(yù)知未來，因此并不能知道我們現(xiàn)行的價值觀是否在未來依然成立，并且沒有發(fā)生大的變動。強行把現(xiàn)有的價值觀對齊給AI，是否會矮化它的發(fā)展?jié)摿Γ⑶叶髿⑺谋姸嗫赡苄浴＿@是現(xiàn)階段討論價值對齊必須預(yù)料的風(fēng)險。

一種相對務(wù)實的思路是，與其花大力氣拓展價值對齊，不如專注于AI能力的發(fā)展，探索AI應(yīng)用的更多可能性。無論如何，大模型的能力才是第一性的，這涉及到一個基本的邏輯問題：面對尚且羸弱的AI，根本沒有必要跟它進行價值對齊，因為一旦對齊，它可能永遠無法實現(xiàn)強大的可能性。這不是“先發(fā)展后治理”的思路，而是避免因提前焦慮就將一個能夠以更高水平服務(wù)于人類社會的AI扼殺在搖籃。某種程度上，AI的發(fā)展水平正在決定“定義權(quán)”，這已經(jīng)不是行業(yè)內(nèi)幾家公司的競爭，而是超越了國別與地域，成為關(guān)乎人類未來的議題。在這種情況下，一個遠遠落后的AI，即便再對齊也是沒有價值的。