熱門文章
相關(guān)文章
人工智能自動(dòng)駕駛汽車深度強(qiáng)化學(xué)習(xí)的人工輔助訓(xùn)練
發(fā)布時(shí)間:2018-08-07 分類:交通百科
在控制論自動(dòng)駕駛汽車研究所,我們正在利用人體訓(xùn)練來(lái)幫助進(jìn)行自動(dòng)駕駛汽車人工智能的駕駛訓(xùn)練,有各種各樣的方法來(lái)教自動(dòng)駕駛汽車的人工智能有關(guān)駕駛?cè)蝿?wù)的知識(shí)。
首先,人工智能開(kāi)發(fā)人員可以嘗試直接編程的人工智能關(guān)于如何駕駛汽車
這包括識(shí)別各種驅(qū)動(dòng)算法,并編寫(xiě)實(shí)現(xiàn)這些算法的編程代碼。不幸的是,工作量非常大,可能需要很長(zhǎng)的時(shí)間來(lái)做,而且代碼涵蓋駕駛的所有方面和無(wú)數(shù)的駕駛情況的可能性是有問(wèn)題的。因此,這種形式的“教學(xué)”通常是為人工智能的核心在駕駛?cè)蝿?wù),然后使用其他技術(shù)來(lái)加強(qiáng)它。
第二,通過(guò)直接教授來(lái)學(xué)習(xí)
在這種情況下,人工智能幾乎就像一塊白板,被開(kāi)發(fā)用來(lái)觀察人類的行為,然后嘗試模仿這些動(dòng)作。這可能很方便,但它也常常缺少駕駛?cè)蝿?wù)的上下文。換句話說(shuō),人類駕駛員可能會(huì)告訴人工智能如何轉(zhuǎn)動(dòng)輪子或如何快速啟動(dòng),但是人工智能不知道這些動(dòng)作應(yīng)該發(fā)生在什么環(huán)境中。
第三,讓人工智能嘗試駕駛汽車,然后有某種形式的自校正反饋,人工智能使用相應(yīng)的調(diào)整,這是流行的使用汽車駕駛模擬
你設(shè)計(jì)的人工智能,使它能夠駕駛模擬汽車,你設(shè)定模擬的汽車不應(yīng)該離開(kāi)模擬的道路。人工智能試圖駕駛模擬汽車,當(dāng)它離開(kāi)模擬道路時(shí),它將自己指向碼頭。它的目標(biāo)是努力得分,而不是失去分?jǐn)?shù)。因此,它逐漸聯(lián)合起來(lái),不再駛離公路。它是根據(jù)一組約束或限制,以及某種獎(jiǎng)懲制度,通過(guò)自我修正來(lái)做到這一點(diǎn)的。
這種方法在現(xiàn)實(shí)世界中并不是很有效,因?yàn)槟悴幌M惠v真正的汽車不斷地離開(kāi)路面或撞到墻壁上,所以這是通過(guò)模擬來(lái)實(shí)現(xiàn)的。一個(gè)模擬的好處是你可以讓它運(yùn)行幾百次,數(shù)千次,甚至數(shù)百萬(wàn)次。為了讓人工智能捕捉到該做什么,模擬車可以不停地運(yùn)行,可以根據(jù)需要提供盡可能多的模擬實(shí)例。
機(jī)器學(xué)習(xí)是來(lái)這里玩的,一個(gè)人工神經(jīng)網(wǎng)絡(luò)可以被輸入數(shù)百、數(shù)千或幾十萬(wàn)張汽車背面的圖片,并逐漸設(shè)計(jì)出汽車從后面看上去是什么樣子的圖案。這有助于自動(dòng)駕駛汽車的攝像頭,因?yàn)楫?dāng)汽車行駛時(shí)拍攝到圖像時(shí),神經(jīng)網(wǎng)絡(luò)可以很容易地識(shí)別出什么是自動(dòng)駕駛汽車前面的一輛汽車,什么可能不是一輛汽車。從某種意義上說(shuō),這種形式的機(jī)器學(xué)習(xí)需要進(jìn)行大量的觀察(查看汽車后部的圖片),然后找出能夠在這些圖片中找到關(guān)鍵方面的模式。
另一種學(xué)習(xí)駕駛?cè)蝿?wù)的方法是讓人工智能試著駕駛汽車,然后對(duì)人工智能系統(tǒng)進(jìn)行人工解說(shuō)
一名人類“乘客”向人工智能提供反饋,然后人工智能根據(jù)提供的反饋進(jìn)行調(diào)整。一些人稱這種反饋為“批評(píng)”,人工智能被設(shè)置為深度強(qiáng)化型學(xué)習(xí)者。這被認(rèn)為是“深刻的”,因?yàn)榕u(píng)是作為更高級(jí)學(xué)習(xí)方面的一部分而發(fā)生的,它被認(rèn)為是一種“強(qiáng)化”的形式,因?yàn)樗ㄗh人工智能要么多做點(diǎn)什么,要么少做點(diǎn)什么。它加強(qiáng)了正確的行為,并且可以說(shuō)加強(qiáng)了對(duì)不當(dāng)行為的避免。
人工智能自動(dòng)駕駛汽車也可以做到這一點(diǎn)
實(shí)時(shí)反饋(或批評(píng))被傳達(dá)到人工智能深層強(qiáng)化學(xué)習(xí)系統(tǒng),以提高人工智能的駕駛技能。反饋需要及時(shí)完成,并在一定程度上與駕駛過(guò)程中的駕駛?cè)蝿?wù)的展開(kāi)聯(lián)系在一起,反饋需要明確,重點(diǎn)放在駕駛?cè)蝿?wù)的性質(zhì)上。
在反饋過(guò)程中,衡量學(xué)習(xí)者的表現(xiàn)也是很重要的。您希望確保人工智能不會(huì)變得過(guò)于依賴反饋。這可能會(huì)成為培訓(xùn)的意外結(jié)果,即人工智能系統(tǒng)開(kāi)始對(duì)人類訓(xùn)練師過(guò)度適應(yīng)。自動(dòng)駕駛汽車的人工智能顯示了一個(gè)高維的狀態(tài)空間,這意味著當(dāng)你考慮到駕駛汽車所涉及的所有決策因素時(shí),會(huì)涉及到許多維度。我們沒(méi)有使用大量的培訓(xùn)數(shù)據(jù)來(lái)嘗試和提供完整的指導(dǎo),而是通過(guò)使用人力培訓(xùn)師來(lái)加強(qiáng)培訓(xùn)。在進(jìn)行了其他形式的訓(xùn)練后,他們?cè)谌斯ぶ悄軆?nèi)部自我調(diào)整的過(guò)程中提供了幫助。
對(duì)于人工智能系統(tǒng),這里有一些關(guān)于反饋提供的方面,這些方面對(duì)于人員培訓(xùn)的設(shè)計(jì)是值得注意的:
1、反饋太少
人類訓(xùn)練師必須判斷給人工智能自動(dòng)駕駛汽車提供多少反饋。太少的反饋可能是不好的,因?yàn)槿斯ぶ悄軟](méi)有得到它所需要的,以提高駕駛?cè)蝿?wù)。
2、反饋太多
人類訓(xùn)練師在給出過(guò)多的反饋時(shí)必須小心謹(jǐn)慎。除了它在學(xué)習(xí)方面把人工智能弄得亂七八糟,還有另一個(gè)危險(xiǎn),那就是人工智能過(guò)度依賴于人的訓(xùn)練。
3、破壞性反饋
這些反饋可能會(huì)無(wú)意中干擾人工智能,如果人工智能正在確定一個(gè)行動(dòng)計(jì)劃,而反饋發(fā)生了,人工智能可能無(wú)法完成該行動(dòng)計(jì)劃,或者從駕駛?cè)蝿?wù)所需的元素上分散注意力。
4、無(wú)關(guān)反饋
為了控制無(wú)關(guān)的反饋,我們限制了一組反饋語(yǔ)句,這些反饋語(yǔ)句由人類訓(xùn)練師提供。不可否認(rèn)的是,這并不是真實(shí)世界的方式,因?yàn)橐粋€(gè)人訓(xùn)練另一個(gè)人可能像他們想要的那樣無(wú)關(guān)緊要,但即使是人類學(xué)習(xí)者,他們也可能很難弄清楚什么反饋是針對(duì)任務(wù)的,哪些反饋對(duì)任務(wù)沒(méi)有影響,我們通過(guò)有一個(gè)嚴(yán)格的反饋可能性列表來(lái)防止這種情況的發(fā)生。
5、不一致反饋
不一致反饋甚至沖突反饋的潛在可能是人工智能系統(tǒng)的一個(gè)難點(diǎn)。假設(shè)人類訓(xùn)練師說(shuō)加速時(shí),采取一個(gè)曲線,但后來(lái)的人說(shuō),放慢時(shí),采取相同的曲線。人工智能如何看待這種看似不一致或相互矛盾的反饋呢?我們有人工智能系統(tǒng)向人類訓(xùn)練師表明,所提供的反饋似乎不一致,因此至少提醒人類訓(xùn)練師注意該方面(如果人類訓(xùn)練師確實(shí)沒(méi)有必要不一致的話,那么人類訓(xùn)練師就可以進(jìn)行調(diào)整)。
6、適當(dāng)?shù)?、貢獻(xiàn)的、及時(shí)的反饋
其目的是讓人類培訓(xùn)師能夠向人工智能系統(tǒng)提供適當(dāng)、貢獻(xiàn)和及時(shí)的反饋。要做到這一點(diǎn),需要有精通這方面培訓(xùn)并認(rèn)真嘗試進(jìn)行培訓(xùn)的人力培訓(xùn)師。
為自動(dòng)駕駛汽車的人工智能提供人員培訓(xùn)是快速提高自動(dòng)駕駛?cè)蝿?wù)人工智能能力的一種手段。它并沒(méi)有取代教人工智能開(kāi)車的其他方法,相反,它被用來(lái)加強(qiáng)其他技術(shù)。為這個(gè)目的設(shè)計(jì)人工智能是一個(gè)額外的挑戰(zhàn),而不是通常人工智能會(huì)做的事情。它包括使戰(zhàn)術(shù)和戰(zhàn)略人工智能驅(qū)動(dòng)元素準(zhǔn)備好接受反饋,并能夠根據(jù)提供的反饋進(jìn)行調(diào)整。
盡管我們都在試圖走向人工智能自動(dòng)駕駛汽車,這是真正的自動(dòng)駕駛汽車,通常被稱為第5級(jí),這是自動(dòng)駕駛汽車的最高水平,指的是一種自動(dòng)駕駛汽車,能以人類能夠駕駛的任何方式駕駛汽車,想象一下,如果我們不僅通過(guò)使用人類訓(xùn)練器來(lái)教授人工智能,而且假設(shè)有一天我們有人工智能自動(dòng)駕駛汽車,教人類駕駛。