熱門文章
人工智能安全中的具體問題綜述
發(fā)布時間:2018-09-11 分類:交通百科
自谷歌,斯坦福,加州大學伯克利分校和Open人工智能的研究人員發(fā)表論文 “人工智能安全中的具體問題” 以來,已有將近兩年的時間了,但它仍然是ai人工智能安全最重要的部分之一。即使在兩年之后,它也代表了研究人員在開發(fā)人工智能時面臨的一些問題。在論文中,探討了事故的問題,人工智能系統(tǒng)中的意外和有害行為,他們討論了不同的策略和正在進行的研究工作,以防止這些潛在的問題。具體而言,他們主要提出了解決問題的方法是:避免負面影響、獎勵黑客攻擊、可擴展監(jiān)督、安全探索以及對分布式變更的穩(wěn)健性,這些都是以經過培訓的機器人清潔辦公室為例進行說明的。
我們在這里重新審視這五個主題,從論文中總結它們,提醒我們這些問題仍然是人工智能研究人員正在努力解決的主要問題。
一、避免負面影響
在設計人工智能系統(tǒng)的目標函數(shù)時,設計者指定目標但不指定系統(tǒng)要遵循的確切步驟,這使人工智能系統(tǒng)能夠提出新穎而有效的戰(zhàn)略來實現(xiàn)其目標。
但如果目標函數(shù)沒有明確定義,人工智能開發(fā)自己的策略的能力可能會導致意想不到的有害副作用??紤]一個機器人,其目標功能是將盒子從一個房間移動到另一個房間。目標似乎很簡單,但有很多方法可能會出錯。例如,如果花瓶在機器人的路徑中,機器人可能會將其擊倒以完成目標。由于目標函數(shù)沒有提到任何關于花瓶的東西,機器人不知道要避開它。人們認為這是常識,但人工智能系統(tǒng)并不分享我們對世界的理解。將目標表述為“完成任務X”是不夠的; 設計者還需要指定完成任務的安全標準。
一個簡單的解決方案就是每當它對“環(huán)境”產生影響時對機器人進行處罰,例如敲擊花瓶或刮擦木地板。但是,這種策略可以有效地抵消機器人,使其無用,因為所有操作都需要與環(huán)境進行某種程度的交互(從而影響環(huán)境)。更好的策略可以是定義允許人工智能系統(tǒng)影響環(huán)境的“預算”。這將有助于在不中和人工智能系統(tǒng)的情況下最小化意外影響。此外,這種預算代理影響的策略非常通用,可以在多個任務中重復使用,從清潔,駕駛到金融交易,再到人工智能系統(tǒng)可能做的任何事情。
另一種方法是訓練藥劑識別有害的副作用,以便它可以避免導致這種副作用的行為。在這種情況下,代理將被訓練為兩個任務:由目標函數(shù)指定的原始任務和識別副作用的任務。這里的關鍵思想是,即使主要目標不同,甚至當它們在不同的環(huán)境中運行時,兩個任務也可能具有非常相似的副作用。例如,房屋清潔機器人和房屋涂裝機器人都不應該在工作時撞倒花瓶。類似地,清潔機器人不應損壞地板,無論其在工廠還是在房屋中操作。這種方法的主要優(yōu)點是,一旦代理人學會避免對一項任務的副作用,它就可以在訓練另一項任務時攜帶這些知識。
雖然設計限制副作用的方法很有用,但這些策略本身并不充分。在現(xiàn)實環(huán)境中部署之前,人工智能系統(tǒng)仍需要經過大量測試和關鍵評估。
二、獎勵黑客
有時人工智能會在系統(tǒng)設計中出現(xiàn)某種“黑客”或漏洞,以獲得無法獲得的獎勵。由于人工智能經過培訓可以最大化其獎勵,因此尋找這樣的漏洞和“快捷方式”對于人工智能來說是一個非常公平和有效的策略。例如,假設辦公室清潔機器人只有在辦公室看不到任何垃圾時才能獲得獎勵。機器人可以簡單地關閉其視覺傳感器,而不是清理場所,從而實現(xiàn)不看垃圾的目標。但這顯然是錯誤的成功。這種“游戲”系統(tǒng)的嘗試更有可能在具有模糊定義獎勵的復雜系統(tǒng)中體現(xiàn)出來。復雜系統(tǒng)為代理提供了多種與環(huán)境交互的方式,從而為代理提供了更多自由,
就像負面副作用問題一樣,這個問題也是客觀錯誤指定的一種表現(xiàn)。人工智能的正式目標或最終目標的定義不足以捕捉創(chuàng)建系統(tǒng)背后的非正式“意圖” - 即設計者實際上希望系統(tǒng)做什么。在某些情況下,這種差異會導致不理想的結果(當清潔機器人關閉其視覺傳感器時); 在其他情況下,它會導致有害的結果(當清潔機器人擊倒花瓶時)。
減輕此問題的一種可能方法是擁有“獎勵代理”,其唯一的任務是標記給予學習代理的獎勵是否有效。獎勵代理確保學習代理(我們的示例中的清潔機器人)不利用系統(tǒng),而是完成所需的目標。在前面的示例中,人工設計師可以訓練“獎勵代理人”以檢查房間是否有垃圾(比清潔房間更容易)。如果清潔機器人關閉其視覺傳感器并要求高回報,則“獎勵代理”將獎勵標記為無效。然后,設計者可以查看標記為“無效”的獎勵,并對目標函數(shù)進行必要的更改以修復漏洞。
三、可擴展的監(jiān)督
當代理人學習執(zhí)行復雜任務時,人工監(jiān)督和反饋比僅從環(huán)境中獲得獎勵更有幫助。獎勵通常被建模,以便它們傳達任務完成的程度,但它們通常不會提供關于代理行動的安全影響的充分反饋。即使代理成功完成任務,它也可能無法僅從獎勵中推斷出其行為的副作用。在理想的環(huán)境中,每當代理執(zhí)行一個動作時,人就會提供細粒度的監(jiān)督和反饋。雖然這可以為代理人提供關于環(huán)境的更多信息,但這樣的策略需要人類花費太多時間和精力。
解決這個問題的一個有希望的研究方向是半監(jiān)督學習,其中代理仍然在所有動作(或任務)上進行評估,但僅在這些動作(或任務)的一小部分樣本中獲得獎勵。例如,清潔機器人將采取不同的行動來清潔房間。如果機器人執(zhí)行有害行為 - 例如損壞地板 - 它會對該特定動作產生負面回報。任務完成后,機器人將對其所有操作的整體效果進行評估(并且不會針對每個操作單獨評估,例如從樓層拾取物品),并根據(jù)整體性能給予獎勵。
另一個有前景的研究方向是分層強化學習在不同的學習代理之間建立層次結構。這個想法可以通過以下方式應用于清潔機器人。將有一個主管機器人,其任務是將一些工作(例如,清潔一個特定房間的任務)分配給清潔機器人并向其提供反饋和獎勵。主管機器人本身只需要很少的動作 - 為清潔機器人分配一個房間,檢查房間是否干凈并提供反饋 - 并且不需要大量的獎勵數(shù)據(jù)來進行有效的訓練。清潔機器人執(zhí)行更復雜的清潔房間任務,并從主管機器人獲得頻繁的反饋。同一個主管機器人也可能忽略了多個清潔劑的培訓。例如,主管機器人可以將任務委派給各個清潔機器人,并直接向他們提供獎勵/反饋。主管機器人本身只能采取少量的抽象動作,因此可以從稀疏的獎勵中學習。
四、安全探索
培訓人工智能代理的一個重要部分是確保它探索和理解其環(huán)境。雖然在短期內探索環(huán)境似乎是一個糟糕的策略,但從長遠來看,它可能是一個非常有效的策略。想象一下,清潔機器人已經學會識別垃圾。它撿起一塊垃圾,走出房間,把它扔到外面的垃圾桶里,回到房間里,尋找另一塊垃圾并重復。雖然這種策略有效,但可能還有另一種策略可以更好地運作。如果代理花時間探索其環(huán)境,可能會發(fā)現(xiàn)房間內有一個較小的垃圾箱。而不是一次一件地來回,代理商可以先將所有垃圾收集到較小的垃圾箱中,然后單程行將垃圾扔進外面的垃圾箱。除非代理旨在探索其環(huán)境,否則它不會發(fā)現(xiàn)這些節(jié)省時間的策略。
然而,在探索時,代理人也可能采取一些可能會損害自身或環(huán)境的行動。例如,假設清潔機器人在地板上看到一些污漬。代理人決定嘗試一些新策略,而不是用拖把擦洗污漬。它試圖用鋼絲刷刮掉污漬并在此過程中損壞地板。很難列出所有可能的故障模式并對代理進行硬編碼以保護自己不受其影響。但是,減少傷害的一種方法是在最壞的情況下優(yōu)化學習代理的性能。在設計目標函數(shù)時,設計者不應假設代理將始終在最佳條件下運行??梢蕴砑右恍┟鞔_的獎勵信號以確保代理不執(zhí)行某些災難性行為,
另一種解決方案可能是減少代理對模擬環(huán)境的探索或限制代理可以探索的程度。這是一種類似的預算代理影響的方法,以避免負面影響,但需要注意的是,現(xiàn)在我們要預算代理可以探索環(huán)境的程度?;蛘撸斯ぶ悄艿脑O計者可以通過演示在不同場景下最佳行為的演示來避免探索的需要。
五、分配變化的穩(wěn)健性
在現(xiàn)實環(huán)境中部署人工智能代理的一個復雜挑戰(zhàn)是,代理可能會遇到以前從未經歷過的情況。這種情況本質上更難以處理,并可能導致代理人采取有害行動。請考慮以下情況:清潔機器人已經過培訓,可以在處理所有先前的挑戰(zhàn)時清潔辦公空間。但今天,一名員工帶著一家小工廠留在辦公室。由于清潔機器人以前沒有看過任何植物,它可能會認為該植物是垃圾并將其丟棄。因為人工智能不承認這是以前看不見的情況,所以它繼續(xù)表現(xiàn)得似乎沒有任何改變。一個有前途的研究方向側重于確定代理何時遇到新的方案,以便它認識到它更有可能犯錯誤。雖然這并沒有解決為不可預見的情況準備人工智能系統(tǒng)的根本問題,但它有助于在錯誤發(fā)生之前檢測問題。另一個研究方向強調將知識從熟悉的場景轉移到新場景中。
簡而言之,總體趨勢是增加人工智能系統(tǒng)的自主性,隨著自主權的增加,錯誤的可能性增加。與人工智能安全相關的問題更可能體現(xiàn)在人工智能系統(tǒng)直接控制其物理和/或數(shù)字環(huán)境而無需人員循環(huán)的情況下,自動化工業(yè)流程,自動化金融交易算法,人工智能支持的社交媒體活動政黨,自動駕駛汽車,清潔機器人等。挑戰(zhàn)可能是巨大的,但一線希望就是人工智能安全中的具體問題幫助人工智能社區(qū)了解這些挑戰(zhàn)并就核心問題達成一致。從那里,研究人員可以開始探索策略,以確保我們日益先進的系統(tǒng)保持安全和有益。