·當(dāng)前AI模型安全能力的提升遠(yuǎn)遠(yuǎn)落后于性能,導(dǎo)致AI的發(fā)展是跛腳的,失衡的背后是兩者投入上的巨大差異。目前世界上99%的算力用于模型預(yù)訓(xùn)練,只有不到1%用于對(duì)齊或更多安全優(yōu)先的考量。
發(fā)展可信AGI,需要探索AI 45度平衡律,長(zhǎng)期來看,AI要大體上沿著45度安全與性能平衡發(fā)展。短期內(nèi)可以有波動(dòng),但不能長(zhǎng)期低于45度,也不能長(zhǎng)期高于45度,這會(huì)阻礙技術(shù)和產(chǎn)業(yè)應(yīng)用的發(fā)展。

7月4日,2024世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議在上海開幕。上海人工智能實(shí)驗(yàn)室主任、首席科學(xué)家、清華大學(xué)惠妍講席教授周伯文提出探索“人工智能45度平衡律”的技術(shù)主張。
當(dāng)前,以大模型為代表的生成式人工智能快速發(fā)展,但隨著能力不斷提升,模型自身及其應(yīng)用帶來一系列潛在風(fēng)險(xiǎn)顧慮。以公眾對(duì)AI風(fēng)險(xiǎn)的關(guān)注順序來看,首先是數(shù)據(jù)泄露、濫用、隱私及版權(quán)相關(guān)的內(nèi)容風(fēng)險(xiǎn),其次是惡意使用帶來的偽造虛假信息等相關(guān)的使用風(fēng)險(xiǎn),也可能誘發(fā)偏見、歧視等相關(guān)的倫理問題,人們擔(dān)心是否會(huì)帶來就業(yè)結(jié)構(gòu)和社會(huì)系統(tǒng)性的挑戰(zhàn),甚至在科幻電影中出現(xiàn)了AI失控、人類喪失自主權(quán)等設(shè)定。
“這些AI風(fēng)險(xiǎn)有的已經(jīng)出現(xiàn),但更多是潛在的。防范這些風(fēng)險(xiǎn)需要共同努力,需要科學(xué)設(shè)計(jì),做出更多貢獻(xiàn)。”周伯文表示,對(duì)AI擔(dān)憂的根本原因是目前人類的發(fā)展是失衡的。
如果橫軸代表AI技術(shù)能力的提升,那么以Transformer為代表的基礎(chǔ)模型架構(gòu),加以大數(shù)據(jù)、大參數(shù)量、大計(jì)算量的尺度定律,讓目前的AI能力呈指數(shù)級(jí)增長(zhǎng)。但在縱軸的AI安全維度,紅隊(duì)測(cè)試、安全標(biāo)識(shí)、安全護(hù)欄與評(píng)估測(cè)量等典型技術(shù)呈現(xiàn)離散化、碎片化及后置性。最近的一些對(duì)齊技術(shù)兼顧了性能和安全性,比如監(jiān)督式微調(diào)SFT、人類反饋的強(qiáng)化學(xué)習(xí)RLHF等技術(shù),幫助將人類的偏好傳遞給大模型,助推涌現(xiàn)出了ChatGPT、GPT-4等令人興奮的AI系統(tǒng)。
但總體上,AI模型安全能力的提升還遠(yuǎn)遠(yuǎn)落后于性能,這種失衡導(dǎo)致AI的發(fā)展是跛腳的,發(fā)展不均衡的背后是兩者投入上的巨大差異。周伯文表示,從人才密集度、商業(yè)驅(qū)動(dòng)力、算力投入度方面對(duì)比來看,對(duì)安全的投入遠(yuǎn)遠(yuǎn)落后于AI能力提升。目前世界上99%的算力用于模型預(yù)訓(xùn)練,只有不到1%用于對(duì)齊或更多安全優(yōu)先的考量。
“發(fā)展可信AGI(通用人工智能),要兼顧安全與性能,因此需要找到AI安全優(yōu)先但又能保證AI能力長(zhǎng)期發(fā)展的技術(shù)體系,我們把這樣一種技術(shù)思想體系叫作AI 45度平衡律,長(zhǎng)期來看要大體上沿著45度安全與性能平衡發(fā)展。”周伯文表示,所謂的平衡是指短期內(nèi)可以有波動(dòng),但不能長(zhǎng)期低于45度,如同我們所處的現(xiàn)在;也不能長(zhǎng)期高于45度,這會(huì)阻礙技術(shù)和產(chǎn)業(yè)應(yīng)用的發(fā)展。
45度平衡的技術(shù)思想體系要求強(qiáng)技術(shù)驅(qū)動(dòng)、全流程優(yōu)化、多主體參與以及敏捷治理。周伯文表示,實(shí)現(xiàn)AI 45度平衡律有很多技術(shù)路徑,上海人工智能實(shí)驗(yàn)室最近探索以因果為核心的路徑,它被稱為可信AGI的“因果之梯”,以此致敬因果推理領(lǐng)域的先驅(qū)——圖靈獎(jiǎng)得主Judea Pearl。
可信AGI的“因果之梯”將可信AGI的發(fā)展分為三個(gè)遞進(jìn)階段:泛對(duì)齊、可干預(yù)、能反思。
“泛對(duì)齊”主要包含當(dāng)前最前沿的人類偏好對(duì)齊技術(shù)。但需要注意的是,這些安全對(duì)齊技術(shù)僅依賴統(tǒng)計(jì)相關(guān)性而忽視真正的因果關(guān)系,可能導(dǎo)致錯(cuò)誤推理和潛在危險(xiǎn)。一個(gè)典型的例子是巴甫洛夫的狗:當(dāng)狗僅僅基于鈴聲和食物的統(tǒng)計(jì)相關(guān)性形成條件反射時(shí),它可能在任何聽到鈴聲的場(chǎng)合都觸發(fā)行為分泌唾液。
“可干預(yù)”主要包含通過對(duì)AI系統(tǒng)進(jìn)行干預(yù),探究其因果機(jī)制的安全技術(shù)。“能反思”則要求AI系統(tǒng)不僅追求高效執(zhí)行任務(wù),還能審視自身行為的影響和潛在風(fēng)險(xiǎn),從而在追求性能的同時(shí),確保安全和道德邊界不被突破。這個(gè)階段的技術(shù)包括基于價(jià)值的訓(xùn)練、因果可解釋性、反事實(shí)推理等。
周伯文表示,目前AI安全和性能技術(shù)發(fā)展主要停留第一階段,部分在嘗試第二階段,但要真正實(shí)現(xiàn)AI的安全與性能平衡,必須完善第二階段并勇于攀登第三階段。沿著可信AGI的“因果之梯”拾級(jí)而上,相信可以構(gòu)建真正可信AGI,實(shí)現(xiàn)人工智能的安全與卓越性能的完美平衡。“最終,像安全可控的核聚變技術(shù)為全人類帶來清潔、豐富的能源一樣,我們希望通過深入理解AI的內(nèi)在機(jī)理和因果過程,從而安全且有效地開發(fā)和使用這項(xiàng)革命性技術(shù)。”