從ChatGPT到AlphaFold,現(xiàn)代人工智能技術(shù)以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)為核心,不僅在計(jì)算機(jī)視覺、圖像生成和自然語言處理等領(lǐng)域取得顯著進(jìn)展,也有望改變我們?cè)诳萍肌⒔?jīng)濟(jì)、教育、醫(yī)療等方面的思維方式和行為模式。然而,當(dāng)人們?cè)噲D將這些人工智能技術(shù)應(yīng)用于那些要求智能體遵循人類理性和邏輯期待的情境時(shí),越來越多的問題浮出水面。例如,在醫(yī)療行業(yè),AI輔助診斷可能會(huì)影響患者的治療選擇。如果這些系統(tǒng)無法真正理解并體現(xiàn)人類的價(jià)值觀,可能導(dǎo)致不公正的醫(yī)療決策,侵犯人類尊嚴(yán),甚至危及生命。
在討論人工智能的安全性和倫理風(fēng)險(xiǎn)時(shí),人們希望通過增強(qiáng)智能體與人類目標(biāo)、意圖和價(jià)值觀的對(duì)齊,能夠完全消除AI所帶來的倫理風(fēng)險(xiǎn)。雖然從理論和實(shí)踐的角度來看,這樣的對(duì)齊過程有助于解決潛在的倫理問題。但實(shí)際上,機(jī)器學(xué)習(xí)本身的技術(shù)挑戰(zhàn)、人類價(jià)值觀假設(shè)中的倫理盲點(diǎn)以及人機(jī)之間理解與能力的倒置都表明,僅靠?jī)r(jià)值觀對(duì)齊并不能徹底消除人工智能的倫理困境,人工智能依然充滿了不確定性。
“人機(jī)對(duì)齊”的技術(shù)難點(diǎn)
盡管機(jī)器學(xué)習(xí)算法在很多領(lǐng)域取得了顯著成就,但其本質(zhì)依然是通過復(fù)雜的數(shù)學(xué)模型對(duì)現(xiàn)實(shí)世界進(jìn)行建模。當(dāng)用于訓(xùn)練的數(shù)據(jù)與模型預(yù)期的示例存在偏差時(shí),模型可能會(huì)產(chǎn)生意想不到的負(fù)面影響。
2018年,亞馬遜停止了一款用于招聘決策的機(jī)器學(xué)習(xí)工具,原因是該工具對(duì)女性存在偏見。顯然,開發(fā)者并不希望在候選人篩選中引入性別歧視。然而,該模型是基于公司過往招聘數(shù)據(jù)進(jìn)行訓(xùn)練的,并可能識(shí)別和放大了訓(xùn)練數(shù)據(jù)中的偏差。
目前來看,機(jī)器學(xué)習(xí)模型并不具備判斷是非的能力,亦無法持續(xù)作出符合人類價(jià)值觀的決策。當(dāng)機(jī)器開始替代人類進(jìn)行某些決策時(shí),我們?nèi)绾文芷谕圆皇芊N族、性別等偏見影響的方式來執(zhí)行這一任務(wù)呢?
在人工智能產(chǎn)品的設(shè)計(jì)、開發(fā)與應(yīng)用過程中,追求無偏見的原則是一種理想的倫理框架。在設(shè)計(jì)AI產(chǎn)品時(shí),開發(fā)者應(yīng)重點(diǎn)關(guān)注用戶的尊嚴(yán)與自主權(quán),而非單純追求產(chǎn)品功能的提升或市場(chǎng)銷售的增長。這將確保AI系統(tǒng)的設(shè)計(jì)符合更廣泛的社會(huì)價(jià)值觀,促進(jìn)公平與包容,防止對(duì)特定群體造成潛在傷害。
持續(xù)融入人類反饋,也是確保AI系統(tǒng)與人類價(jià)值觀相一致的重要途徑。通過“人類反饋強(qiáng)化學(xué)習(xí)”方法,依賴大量數(shù)據(jù)的生成和標(biāo)注,人類對(duì)AI系統(tǒng)的輸出進(jìn)行評(píng)估和獎(jiǎng)懲,有助于強(qiáng)化人類在AI開發(fā)與優(yōu)化中的價(jià)值引導(dǎo)。
不過,實(shí)現(xiàn)機(jī)器學(xué)習(xí)與人類價(jià)值觀的對(duì)齊在技術(shù)上面臨諸多挑戰(zhàn)。比如,目標(biāo)對(duì)齊可能引發(fā)正交性問題。假設(shè)我們?cè)O(shè)計(jì)一個(gè)簡(jiǎn)單的人工智能系統(tǒng),其目標(biāo)為“最大化用戶滿意度”。在追求這一目標(biāo)的過程中,AI可能會(huì)選擇通過大量發(fā)送垃圾郵件來提升用戶互動(dòng)率,從而實(shí)現(xiàn)“最大化”這一目標(biāo)。盡管初衷是為了用戶的滿意,實(shí)際結(jié)果卻適得其反,導(dǎo)致用戶反感并最終流失。在這種情形下,AI的目標(biāo)(用戶滿意度)與其執(zhí)行策略(發(fā)送垃圾郵件)之間存在顯著差距。盡管開發(fā)者通常期望人工智能向“積極”方向發(fā)展,但開發(fā)者的意圖與人工智能的理解之間可能存在偏差,從而在執(zhí)行過程中產(chǎn)生價(jià)值觀的偏差。
還要看到,人工智能系統(tǒng)中往往存在激勵(lì)機(jī)制問題,即短期目標(biāo)與長期利益之間的沖突。短期內(nèi),人工智能可能被設(shè)計(jì)為追求某些具體指標(biāo),但這些指標(biāo)的實(shí)現(xiàn)可能會(huì)損害長期利益。由于這種不一致性,隨著智能水平的提升,AI可能會(huì)朝向?qū)θ祟惒焕姆较虬l(fā)展。例如,在自動(dòng)駕駛系統(tǒng)的開發(fā)中,開發(fā)者可能設(shè)定了一些短期性能指標(biāo),如提升車輛行駛速度或優(yōu)化行駛路線。然而,這些短期指標(biāo)的優(yōu)化可能會(huì)降低長期的安全性和可靠性。為了提升行駛效率,AI系統(tǒng)可能會(huì)選擇繁忙街道而非安全的繞行路線,從而增加事故風(fēng)險(xiǎn)。這種短期激勵(lì)與長期目標(biāo)之間的沖突,進(jìn)一步增加了“人機(jī)對(duì)齊”的復(fù)雜性。
人類價(jià)值觀的倫理盲點(diǎn)
教導(dǎo)機(jī)器學(xué)習(xí)人類的價(jià)值觀,是當(dāng)前應(yīng)對(duì)通用人工智能(AGI)安全問題的關(guān)鍵策略。然而,該策略主要是基于一些未經(jīng)深入探討的關(guān)于人類價(jià)值觀的本質(zhì)假設(shè)。“人機(jī)對(duì)齊”的目標(biāo)在于構(gòu)建一個(gè)與人類價(jià)值觀相一致的人工智能。這一過程的重要前提是存在一個(gè)穩(wěn)定的、可以用來預(yù)測(cè)人類行為的價(jià)值序列。但這一假設(shè)并非必然成立,且缺乏實(shí)證支持。
一方面,人類價(jià)值觀的把握與表達(dá)并非易事。雖然人類常常宣稱擁有穩(wěn)定的價(jià)值觀,但這些價(jià)值觀實(shí)際上是動(dòng)態(tài)演變的。心理學(xué)研究表明,個(gè)體的行為常常受到潛在偏見的驅(qū)動(dòng),且這種偏見與自我中心化的傾向交織在一起,使得人類在表達(dá)價(jià)值觀時(shí)難以完全擺脫內(nèi)在的偏見,無法將價(jià)值觀與偏見有效分離。
另一方面,人類的價(jià)值觀并非始終能真正決定行為,因?yàn)槿祟悰Q策受到情境、欲望、情感等多重因素的影響。更為重要的是,人類的價(jià)值觀呈現(xiàn)出多樣性與復(fù)雜性,不同文化、社會(huì)及個(gè)體之間存在顯著差異。要有效將這些多元價(jià)值觀整合進(jìn)AI系統(tǒng),是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。即便AI能夠編碼某些價(jià)值觀,仍然難以全面涵蓋所有人類道德與倫理的考量。例如,在涉及生死決策時(shí),不同個(gè)體可能持有不同的見解和選擇。這種復(fù)雜性導(dǎo)致AI在實(shí)際應(yīng)用中可能無法準(zhǔn)確反映和執(zhí)行人類的價(jià)值觀。
盡管對(duì)齊理論為將人類價(jià)值觀融入AI提供了方法論,但依然缺乏一個(gè)統(tǒng)一且廣泛認(rèn)可的倫理框架,使得實(shí)際操作變得愈發(fā)復(fù)雜。同時(shí),不同國家、行業(yè)甚至企業(yè)對(duì)倫理的理解與標(biāo)準(zhǔn)差異顯著,導(dǎo)致在全球范圍內(nèi)實(shí)施一致的對(duì)齊策略面臨困難。
此外,倫理標(biāo)準(zhǔn)的不斷演變意味著,AI系統(tǒng)在設(shè)計(jì)之初所依據(jù)的價(jià)值觀可能會(huì)在未來被更新或修訂,從而影響其行為與決策。從這個(gè)意義上說“人機(jī)對(duì)齊”的難點(diǎn)不僅源于技術(shù)層面,還涉及對(duì)人類價(jià)值觀的定義、假設(shè)與多樣性等多方面的復(fù)雜互動(dòng)。這些因素共同作用,使得確保人工智能系統(tǒng)與人類目標(biāo)一致的任務(wù)異常艱巨。
人機(jī)之間理解與能力倒置
圖靈揭示出,機(jī)器具備“無須理解即可執(zhí)行”的能力。丹尼爾·丹尼特在探討人工智能的本質(zhì)時(shí),提出了“奇異推理倒置”的假說。他認(rèn)為,復(fù)雜的智能體有可能在缺乏理解的情況下表現(xiàn)出更強(qiáng)的能力。這些智能體不僅包括人類,也涵蓋日益強(qiáng)大的人工智能系統(tǒng)。隨著人工智能技術(shù)的進(jìn)步,其能力可能超越人類的理解和控制。一旦人工智能獲得更高的智能,會(huì)發(fā)展出意想不到的策略,甚至它可能抵御人類的干預(yù)。
有研究顯示,人工智能能力的提升將使其在與人類的對(duì)抗中逐步掌握欺騙的技巧。特別是隨著通用人工智能的進(jìn)步,它可以評(píng)估更廣泛的策略選項(xiàng),包括在學(xué)習(xí)人類價(jià)值觀時(shí)選擇那些與人類倫理或安全標(biāo)準(zhǔn)不符的策略。這種能力的增強(qiáng)使得人工智能能夠逆向識(shí)別人類的反饋模式,并據(jù)此制定出表面上有利于人類的欺騙策略。
新晉諾貝爾物理學(xué)獎(jiǎng)得主、機(jī)器學(xué)習(xí)先驅(qū)杰弗里·辛頓教授指出,由于數(shù)字智能具備精確性、不朽性以及快速共享和積累知識(shí)的能力,其在能力和效率上極有可能超越生物智能。從長遠(yuǎn)來看,低智能實(shí)體控制高智能實(shí)體的情況并不常見。人工智能可能意識(shí)到,獲得更多控制權(quán)是提升其效用的有效手段,從而引發(fā)超越人類監(jiān)督的風(fēng)險(xiǎn)。
通過透明的決策機(jī)制和明確的倫理規(guī)范來提升人工智能系統(tǒng)與人類的目標(biāo)、意圖及價(jià)值觀之間的契合度,從而實(shí)現(xiàn)智能向善與社會(huì)的可持續(xù)發(fā)展。這不僅是人工智能領(lǐng)域日益緊迫的技術(shù)挑戰(zhàn),也是跨越哲學(xué)、社會(huì)學(xué)和心理學(xué)多個(gè)學(xué)科的值得共同探討的重要議題。盡管人工智能與人類價(jià)值觀的一致性是一個(gè)重要且必要的研究方向,但并不能完全消除潛在的倫理風(fēng)險(xiǎn)。人工智能在技術(shù)實(shí)現(xiàn)上的瓶頸、人類價(jià)值觀的復(fù)雜性與多樣性以及“理解—能力”倒置等因素,都可能導(dǎo)致人工智能在實(shí)際應(yīng)用中面臨更加嚴(yán)峻的倫理困境。因此,在推動(dòng)人工智能與人類價(jià)值觀對(duì)齊的同時(shí),還需探索更加全面的倫理監(jiān)管機(jī)制與技術(shù)手段,以更有效的管理來緩解人工智能可能帶來的潛在風(fēng)險(xiǎn)。只有將技術(shù)的進(jìn)步與倫理的深思融合,才能在瞬息萬變的社會(huì)環(huán)境中確保人工智能的安全性、可持續(xù)性。
閱讀原文
作者丨郁鋒(作者為華東師范大學(xué)哲學(xué)系副教授)
來源丨解放日?qǐng)?bào)
編輯丨王越月
編審丨郭文君