熱門文章
訓(xùn)練人工智能妥協(xié)
發(fā)布時間:2018-09-29 分類:交通百科
想象一下,你正坐在一輛自動駕駛汽車里,這輛車即將左轉(zhuǎn)駛?cè)胗娑鴣淼能嚵髦?。汽車中的一個小系統(tǒng)將負責(zé)使車輛轉(zhuǎn)彎,一個系統(tǒng)可能會加速或踩剎車,其他系統(tǒng)將裝有探測障礙物的傳感器,而另一個系統(tǒng)可能正在與路上的其他車輛進行通信。每個系統(tǒng)都有自己的目標,開始或停止,轉(zhuǎn)向或直行,認識到潛在的問題,等等。但他們也必須共同努力實現(xiàn)一個共同的目標:在不造成交通事故的情況下轉(zhuǎn)向交通。
如果我們有一個認可機構(gòu)的體系,我們?nèi)绾螢閭€別的認可機構(gòu)構(gòu)建獎勵,從而使組合的系統(tǒng)表現(xiàn)良好?
從本質(zhì)上說,人工智能系統(tǒng)中的人工智能就像上面的汽車例子,需要學(xué)習(xí)如何滿足自己的目標,以及如何妥協(xié),以便其行動將有助于滿足群體目標。最重要的是,認可機構(gòu)的制度需要考慮社會的喜好。與左轉(zhuǎn)相比,行車中的乘客或人行橫道上的行人的安全更為重要。
訓(xùn)練一個行為良好的人工智能
因為像繁忙的街道這樣的環(huán)境是如此復(fù)雜,工程師不能僅僅通過編程讓人工智能以某種方式行事來實現(xiàn)它的目標,人工智能系統(tǒng)需要在獎勵制度的基礎(chǔ)上學(xué)習(xí)正確的行為。每個人工智能都有一個獎勵,因為它的行動和其他人工智能的行動。隨著世界的不斷變化,回報也必須不斷變化,認可機構(gòu)不僅需要跟上自身目標的變化,還需要跟上整個系統(tǒng)不斷變化的目標。
以獎勵為基礎(chǔ)的學(xué)習(xí)系統(tǒng)的想法是大多數(shù)人都能想到的,任何一個養(yǎng)狗的人都經(jīng)歷過,當(dāng)他們的寵物意識到自己會得到款待時,他們的寵物更有可能表演一種詭計,對人工智能的獎勵也是類似的。
在設(shè)計人工智能時經(jīng)常使用的一種技術(shù)是強化學(xué)習(xí),在強化學(xué)習(xí)中,當(dāng)人工智能系統(tǒng)采取某種行動時,它會收到正反饋或負反饋。然后,它試圖優(yōu)化自己的行動,以獲得更多的積極回報。然而,獎勵不能僅僅被編程到人工智能中,人工智能必須與其環(huán)境互動,以了解哪些行動將被認為是好的、壞的或中立的。同樣,這種想法類似于一只狗學(xué)習(xí)技巧可以贏得它的待遇或贊揚,但行為不端可能導(dǎo)致懲罰。
培訓(xùn)認可機構(gòu)系統(tǒng)
博弈論幫助研究人員了解什么類型的獎勵會引起其他自私自利的參與者之間的合作,或者在這種情況下,會出現(xiàn)理性的人工智能系統(tǒng)。一旦一個ai人工智能計算出如何最大化它自己的獎勵,什么會誘使它按照另一個AI行事?為了回答這個問題,可以求助于一種叫做機制設(shè)計的經(jīng)濟學(xué)理論。
機制設(shè)計理論是一種諾貝爾理論,它使研究人員能夠確定一個由多個部分組成的系統(tǒng)如何實現(xiàn)一個總體目標。這是一種逆博弈理論。如何設(shè)計互動規(guī)則,例如分配獎勵的方式,使個別機構(gòu)的行為有利于全系統(tǒng)和全社會的偏好?除其他外,機制設(shè)計理論已經(jīng)應(yīng)用于拍賣、電子商務(wù)、法規(guī)、環(huán)境政策以及人工智能等領(lǐng)域的問題。
人工智能系統(tǒng)的工作與機制設(shè)計理論的不同之處在于,后者需要某種機制或管理人員來監(jiān)督整個系統(tǒng)。在自動化汽車或無人駕駛飛機的情況下,內(nèi)部機構(gòu)必須共同努力,以實現(xiàn)集團目標,而沒有一個機制作出最終決定。隨著環(huán)境的變化,外部獎勵也會發(fā)生變化。而當(dāng)系統(tǒng)內(nèi)的人工智能意識到他們想要做出某種改變來最大化他們的回報時,他們將不得不彼此溝通,改變整個自治系統(tǒng)的目標。