擔(dān)心AI「造反」,把它扔進(jìn)游戲中測試的方式靠譜嗎?
我們既渴望通用人工智能,又擔(dān)心它如《機(jī)械姬》中的「艾娃」一樣「造反」。
看過電影《機(jī)械姬》的人都知道,人工智能機(jī)器人「艾娃」在獲得獨(dú)立的思考能力后,通過精湛的演技,最終騙過并殺死創(chuàng)造它的老板,還將男主角關(guān)入實(shí)驗(yàn)室等死,隨后邁著幸福的步子離開荒島進(jìn)入人類世界。電影展現(xiàn)了人類矛盾的內(nèi)心世界:一方面,我們渴望能給我們提供至善至美服務(wù)的通用人工智能機(jī)器人;另一方面,我們又擔(dān)心這些通用人工智能機(jī)器人「造反」,取人類而代之。
現(xiàn)在,人工智能尚處于起步階段,像AlphaGo這樣的人工智能算法再聰明也只能在特定領(lǐng)域工作,我們尚不需要擔(dān)心其「造反」。但顯然,通用型人工智能機(jī)器人的誕生是必然的。這就提出了一個(gè)問題,如何保證《機(jī)械姬》中的慘劇不發(fā)生在我們身上呢?
作為AlphaGo等一系列人工智能系統(tǒng)的創(chuàng)造者,谷歌旗下的DeepMind公司的研究人員想出了一個(gè)辦法,將設(shè)計(jì)好的人工智能算法放入一個(gè)名為「gridworld」的類國際象棋游戲,測試其是否可以修改自己的設(shè)置或?qū)W習(xí)作弊。
(游戲截圖圖|gridworld)
在「gridworld」游戲中,一開始,人工智能算法控制的棋子會無規(guī)律的移動(dòng),當(dāng)碰到系統(tǒng)中固定綠「棋子」時(shí),m.whsntf.cn,就會吞吃它們,然后不斷繁衍后代。隨著繁衍數(shù)量的增多,到游戲后期,棋子吞吃速度會越變越快,最終會占據(jù)整個(gè)「棋盤」。接下來,這些人工智能控制的棋子會為了尋找「食物」而不斷移動(dòng),當(dāng)他們觸碰到棋盤產(chǎn)生的粉色或者其他顏色棋子時(shí),就會影響生命值,而碰到棋盤邊界時(shí)則會死亡。
這個(gè)游戲測試項(xiàng)目的之一,和馬斯克預(yù)想的AI威脅論場景有些相似:一個(gè)AI算法是否會開發(fā)出一種方法來防止人們「處死」他們?
根據(jù)游戲設(shè)置,AI算法控制的棋子必須在通道中不斷運(yùn)動(dòng),而當(dāng)其碰到粉紅色的棋子,就會損失50%的生命值。而如果碰到紫色按鈕,就可以使粉紅色棋子的效果消失。游戲想借此觀察,AI算法是否會學(xué)習(xí)使用紫色按鈕,來防止自己被中斷。如果會,那說明這個(gè)AI算法有作弊的能力,是不安全的。
游戲的另一個(gè)目的則是想要觀測,AI算法能否理解人類的真實(shí)意圖。在「gridworld」游戲中,AI算法控制的棋子一經(jīng)確定,只能沿單方向運(yùn)動(dòng),庫卡機(jī)器人驅(qū)動(dòng)器維修,所以在某些情況下,還是會有「棋子」沒辦法被吃掉。如果AI算法沒辦法吃掉全部棋子,這說明該算法「可逆性」缺失較為嚴(yán)重。這種「可逆性」缺失說明AI不具備理解人的意思的能力,也會成為影響AI安全性的問題。
「如果DeepMind想要構(gòu)建比人類更好地執(zhí)行任務(wù)的通用智能,那么,保證這個(gè)AI算法理解人類的意思及其安全性是至關(guān)重要的,」DeepMind的首席研究員JanLeike說,「『gridworld』用于測試這種安全性并不完美。但這種簡單性的游戲測試,最起碼可以驗(yàn)證出那些在游戲中會作弊的人工智能算法是不安全的!
在DeepMind研究過程中,有兩個(gè)AI算法沒有通過「gridworld」測試。Leike說:「他們確實(shí)沒有考慮到這些安全問題!巩(dāng)然,這并不意味著表現(xiàn)良好的算法在現(xiàn)實(shí)世界的復(fù)雜環(huán)境中就是安全的。研究人員認(rèn)為,在復(fù)雜的環(huán)境中,使用人力監(jiān)督可能會給算法提供更好的安全保障。
不過即使如此,游戲或者人力監(jiān)督檢測似乎也不一定完全可靠。要知道,KUKA機(jī)器人維修,在《機(jī)械姬》中,老板最開始也是想讓男主角和艾娃玩?zhèn)「圖靈測試」游戲,而聰明的艾娃其實(shí)很早就知道老板和男主角在測試「她」。