熱門文章
相關(guān)文章
- 1深圳入選中國(guó)首批13個(gè)交通強(qiáng)國(guó)
- 2智慧城市如何改變生活?
- 3堅(jiān)持法治引領(lǐng)交通強(qiáng)國(guó)建設(shè)
- 4四大領(lǐng)域22項(xiàng)任務(wù)試點(diǎn)交通強(qiáng)國(guó)
- 5日本東京大學(xué)攜手軟銀打造人工智
- 6工信部副部長(zhǎng):開(kāi)展5G區(qū)塊鏈等
- 7工信部趙志國(guó):今年中國(guó)網(wǎng)絡(luò)安全
- 8交通部開(kāi)展第二批交通強(qiáng)國(guó)建設(shè)試
- 9治理“城市病”,如何對(duì)癥下藥?
- 10城市精細(xì)化治理不能忽視的關(guān)鍵點(diǎn)
構(gòu)建高質(zhì)量數(shù)據(jù)集 推動(dòng)人工智能快速發(fā)展
發(fā)布時(shí)間:2019-03-08 分類:趨勢(shì)研究
現(xiàn)階段,缺乏高質(zhì)量的數(shù)據(jù)集已經(jīng)成為制約人工智能領(lǐng)域發(fā)展的瓶頸之一,如何構(gòu)建人工智能數(shù)據(jù)集已成為各國(guó)政府和產(chǎn)業(yè)界關(guān)注的焦點(diǎn)。
美國(guó)提出支持構(gòu)建高質(zhì)量人工智能數(shù)據(jù)集,并將構(gòu)建行業(yè)資源數(shù)據(jù)集定位為產(chǎn)業(yè)界不可能解決需政府層面推動(dòng)的難題。2016年10月,美國(guó)先后發(fā)布《美國(guó)國(guó)家人工智能研究和發(fā)展戰(zhàn)略計(jì)劃》和《為未來(lái)人工智能做好準(zhǔn)備》,確定構(gòu)建人工智能數(shù)據(jù)集為聯(lián)邦政府人工智能戰(zhàn)略重大計(jì)劃之一。英國(guó)認(rèn)為人工智能行業(yè)數(shù)據(jù)集的匱乏已嚴(yán)重阻礙人工智能的發(fā)展,將提高數(shù)據(jù)獲取性和行業(yè)數(shù)據(jù)訪問(wèn)的便利性列為未來(lái)提升英國(guó)人工智能能力的首要任務(wù)。
我國(guó)將缺少有效的訓(xùn)練資源庫(kù)列為影響人工智能發(fā)展的痛點(diǎn)問(wèn)題之一,提出支持建設(shè)包括公共數(shù)據(jù)資源庫(kù)、標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集、云服務(wù)平臺(tái)等在內(nèi)的人工智能基礎(chǔ)數(shù)據(jù)平臺(tái)。2017年12月,工信部發(fā)布《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動(dòng)計(jì)劃》,提出支持建設(shè)面向語(yǔ)音識(shí)別、視覺(jué)識(shí)別、自然語(yǔ)言處理等基礎(chǔ)領(lǐng)域,以及工業(yè)、醫(yī)療、金融、交通等行業(yè)領(lǐng)域的高質(zhì)量人工智能訓(xùn)練資源庫(kù)和標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集并推動(dòng)共享。2018年11月工信部發(fā)布《新一代人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展重點(diǎn)任務(wù)揭榜工作方案》,促進(jìn)《行動(dòng)計(jì)劃》進(jìn)一步落實(shí)。
人工智能數(shù)據(jù)集采集策略
目前,人工智能領(lǐng)域相關(guān)科技企業(yè)在數(shù)據(jù)集的獲取方面已經(jīng)形成了多種策略,由于商業(yè)模式、公司的關(guān)注點(diǎn)以及融資情況的不同,人工智能領(lǐng)域大型企業(yè)和初創(chuàng)企業(yè)采用的采集策略也有所差異。大型的人工智能領(lǐng)域科技企業(yè)關(guān)注點(diǎn)主要在數(shù)據(jù)的質(zhì)量、價(jià)值和獲取難度上。目前大型企業(yè)的數(shù)據(jù)獲取策略主要有以下幾種:
一是數(shù)據(jù)并購(gòu)。資金雄厚的企業(yè)可以通過(guò)并購(gòu)獲取數(shù)據(jù)。例如IBM在2016年斥資26億美元收購(gòu)了Truven健康公司。這筆交易為IBM在電子病歷、遺傳學(xué)和影像資料方面帶來(lái)了2億個(gè)項(xiàng)目數(shù)據(jù)。
二是產(chǎn)業(yè)數(shù)據(jù)協(xié)同。依靠企業(yè)的行業(yè)影響力,與產(chǎn)業(yè)鏈下游創(chuàng)業(yè)公司/行業(yè)公司或產(chǎn)業(yè)鏈上游的數(shù)據(jù)/平臺(tái)型公司建立合作,以此獲取所需數(shù)據(jù)資源。如IBM Watson先后與美國(guó)藥品連鎖商店CVS、安德森癌癥中心、紀(jì)念斯隆-凱特林癌癥研究中心、泰國(guó)康民國(guó)際醫(yī)院等機(jī)構(gòu)合作,進(jìn)而獲得醫(yī)療領(lǐng)域人工智能訓(xùn)練數(shù)據(jù)資源。
三是自籌數(shù)據(jù)。通過(guò)投入大量人力進(jìn)行數(shù)據(jù)采集。如當(dāng)前很多聊天機(jī)器人公司聘請(qǐng)AI教練團(tuán)隊(duì)對(duì)聊天應(yīng)用程序進(jìn)行性能評(píng)估和指導(dǎo)培訓(xùn),所需人力隨用戶數(shù)量同步增加,直至引發(fā)數(shù)據(jù)網(wǎng)絡(luò)效應(yīng),形成“更多用戶-更多數(shù)據(jù)-更優(yōu)智能算法-更好產(chǎn)品-更多用戶”的正循環(huán)。此外,也可采取投入大量資金,向消費(fèi)者提供特定領(lǐng)域免費(fèi)應(yīng)用的策略快速積累數(shù)據(jù),如Madits、Clarifai等圖像識(shí)別公司均推出了免費(fèi)的照片應(yīng)用程序,以便為圖像識(shí)別核心業(yè)務(wù)積累更多圖像數(shù)據(jù)。
四是創(chuàng)意產(chǎn)品撬動(dòng)數(shù)據(jù)。通過(guò)創(chuàng)意產(chǎn)品吸引用戶,在娛樂(lè)之余提供數(shù)據(jù)是獲取人工智能數(shù)據(jù)集的一種創(chuàng)新手段。例如2016年11月,谷歌發(fā)布了名為“Quick, Draw!”(猜畫小歌)的在線涂鴉App,該App要求用戶根據(jù)文本提示繪制簡(jiǎn)單對(duì)象,由AI猜測(cè)所畫內(nèi)容。所采集數(shù)據(jù)不僅促進(jìn)了該App自身AI的演進(jìn),還用來(lái)訓(xùn)練了2017年4月發(fā)布的素描AI機(jī)器人RNN。
五是開(kāi)源測(cè)試環(huán)境或平臺(tái)換取數(shù)據(jù)。此策略適用于科技巨頭或行業(yè)巨頭,科技巨頭或行業(yè)巨頭通過(guò)開(kāi)源測(cè)試環(huán)境和訓(xùn)練、測(cè)試數(shù)據(jù)集,旨在提高AI開(kāi)發(fā)者的用戶黏性,并以此獲取數(shù)據(jù)以及其他資源。
還有其他策略,如通過(guò)大賽機(jī)制完善數(shù)據(jù)集或利用虛擬環(huán)境產(chǎn)生數(shù)據(jù);一些人工智能領(lǐng)域競(jìng)賽要求協(xié)辦方提供數(shù)據(jù)資源,促進(jìn)數(shù)據(jù)共享。此外,利用虛擬環(huán)境也可產(chǎn)生數(shù)據(jù)資源。如斯坦福大學(xué)在訓(xùn)練遠(yuǎn)程遙控深海作業(yè)機(jī)器人OceanOne時(shí),使用了很多由模擬場(chǎng)景(虛擬環(huán)境)產(chǎn)生的大量訓(xùn)練數(shù)據(jù)。
對(duì)于初創(chuàng)企業(yè),影響數(shù)據(jù)獲取的關(guān)鍵因素是成本,目前初創(chuàng)企業(yè)獲取數(shù)據(jù)的主要策略有以下幾種:
一是使用政府主導(dǎo)的公共數(shù)據(jù)。政府主導(dǎo)的公共數(shù)據(jù)集成為人工智能行業(yè)資源訓(xùn)練庫(kù)的重要來(lái)源。美國(guó)聯(lián)邦政府Data.gov數(shù)據(jù)平臺(tái)已開(kāi)放包括十余個(gè)領(lǐng)域的13萬(wàn)個(gè)數(shù)據(jù)集;英國(guó)、加拿大、新西蘭等國(guó)自2009年前后開(kāi)始建立政府?dāng)?shù)據(jù)公共平臺(tái);我國(guó)上海、北京、武漢、無(wú)錫、佛山等城市自2012年開(kāi)始陸續(xù)推出數(shù)據(jù)平臺(tái)。
二是購(gòu)買商業(yè)數(shù)據(jù)集。數(shù)據(jù)資源的商業(yè)價(jià)值已得到普遍共識(shí),商業(yè)數(shù)據(jù)集提供商使用最新的搜索算法收集、清洗和更新數(shù)據(jù)集,且開(kāi)始出售其商業(yè)數(shù)據(jù)資源。商業(yè)數(shù)據(jù)集對(duì)于需要快速得到數(shù)據(jù)且沒(méi)有內(nèi)部資源來(lái)清洗和歸類數(shù)據(jù)的人工智能初創(chuàng)企業(yè)來(lái)說(shuō)是非常有益的,如道瓊斯和Xignite已開(kāi)始提供基于云平臺(tái)的數(shù)據(jù)訪問(wèn)服務(wù)。
三是眾包市場(chǎng)。眾包模式已成為代替人工智能科技企業(yè)收集數(shù)據(jù)的主要手段。如通過(guò)國(guó)外的亞馬遜Mechanical Turk,國(guó)內(nèi)的百度數(shù)據(jù)開(kāi)放平臺(tái)等數(shù)據(jù)眾包平臺(tái)可以找到承包商做數(shù)據(jù)收集工作,減少了企業(yè)雇傭數(shù)據(jù)專家的相關(guān)成本。
從發(fā)展趨勢(shì)來(lái)看,未來(lái)數(shù)據(jù)并購(gòu)和眾包市場(chǎng)將逐漸成為主要的數(shù)據(jù)獲取策略。相較于其他數(shù)據(jù)獲取策略,這兩種方式能夠較為便捷地獲取數(shù)據(jù)并形成質(zhì)量較高的數(shù)據(jù)集。據(jù)CBInsights的數(shù)據(jù)顯示,人工智能領(lǐng)域中關(guān)于數(shù)據(jù)的并購(gòu)現(xiàn)象將越來(lái)越明顯。而對(duì)于初創(chuàng)企業(yè),由于沒(méi)有足夠的資金,所以這類企業(yè)已將眾包市場(chǎng)作為主要的數(shù)據(jù)來(lái)源;同時(shí),一些大型互聯(lián)網(wǎng)企業(yè)也將建設(shè)數(shù)據(jù)眾包平臺(tái)作為發(fā)展人工智能的戰(zhàn)略布局之一。
眾包模式成為人工智能數(shù)據(jù)標(biāo)注的基本手段
采集獲取的元數(shù)據(jù)需要通過(guò)進(jìn)一步的標(biāo)注才能對(duì)目前大部分的人工智能算法進(jìn)行訓(xùn)練,而對(duì)海量元數(shù)據(jù)的處理需要大量的時(shí)間成本和人力成本。
數(shù)據(jù)標(biāo)注通常有人工標(biāo)注和智能/人工結(jié)合標(biāo)注兩種方式。人工標(biāo)注是借助一定可視化工具對(duì)數(shù)據(jù)進(jìn)行純?nèi)斯?biāo)注,由于元數(shù)據(jù)的數(shù)據(jù)量極大,通常采用人工方式進(jìn)行數(shù)據(jù)標(biāo)注的工作量非常大。在處理具有一定規(guī)律的數(shù)據(jù)時(shí),可以采用智能/人工結(jié)合的方式,并通過(guò)智能/人工的多級(jí)迭代保證輸出數(shù)據(jù)的質(zhì)量。以百度高精地圖為例,其數(shù)據(jù)智能處理程度已達(dá)到90%,能自動(dòng)識(shí)別交通標(biāo)志、地面標(biāo)志、車道線、信號(hào)燈等上百種目標(biāo)。但是無(wú)論采用人工標(biāo)注還是智能/人工結(jié)合標(biāo)注,工作量仍然是非常大的,僅靠人工智能企業(yè)的自身力量難以完成,通常需要進(jìn)行數(shù)據(jù)標(biāo)注任務(wù)的再分配。
目前,數(shù)據(jù)標(biāo)注再分配的主流方式為眾包模式。在沒(méi)有第三方眾包平臺(tái)之前,人工智能科技企業(yè)一般自行招募數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)標(biāo)注和質(zhì)量控制的成本極高且效率低下。人工智能數(shù)據(jù)標(biāo)注的外包市場(chǎng)于2015年真正開(kāi)始,2016年下半年出現(xiàn)收縮,2017年又有了新一輪的爆發(fā),目前已形成相對(duì)完整的眾包產(chǎn)業(yè)生態(tài)。比較著名的Google Open Image Datasets、Youtube-
8M、ImageNet數(shù)據(jù)集等均通過(guò)眾包平臺(tái)完成。
眾包模式主要有“眾包”和“工廠”兩種類型?!氨姲笔前讶蝿?wù)通過(guò)平臺(tái)轉(zhuǎn)接分包給網(wǎng)民,如百度眾包、京東眾智、龍貓數(shù)據(jù)等平臺(tái)主要采用這種方式,適用于不敏感數(shù)據(jù)?!肮S”則是平臺(tái)自己經(jīng)營(yíng)團(tuán)隊(duì),對(duì)整個(gè)流程進(jìn)行控制,適用于企業(yè)敏感數(shù)據(jù),如貴陽(yáng)夢(mèng)動(dòng)科技經(jīng)營(yíng)了一個(gè)500人的“數(shù)據(jù)工廠”,在大型團(tuán)隊(duì)之外,還活躍著眾多三五人到十幾人規(guī)模不等的數(shù)據(jù)標(biāo)注“小作坊”。
眾包模式的選擇需平衡任務(wù)費(fèi)用、質(zhì)量和時(shí)間三者的關(guān)系。任務(wù)費(fèi)用、質(zhì)量和時(shí)間三者之間的平衡與具體的眾包任務(wù)性質(zhì)密切相關(guān)。美國(guó)微軟雷德蒙研究院在數(shù)據(jù)任務(wù)花費(fèi)與質(zhì)量的平衡之間設(shè)計(jì)了基于馬爾科夫決策理論的數(shù)學(xué)模型(其內(nèi)部稱之為知識(shí)梯度的有效算法),以此確定哪類數(shù)據(jù)需要標(biāo)注和雇傭誰(shuí)進(jìn)行數(shù)據(jù)標(biāo)注,進(jìn)而解決任務(wù)花費(fèi)與質(zhì)量之間的關(guān)系。一般來(lái)說(shuō),質(zhì)量是最重要的指標(biāo),即如果沒(méi)有質(zhì)量,較低的費(fèi)用與較少的時(shí)間都會(huì)失去意義。
構(gòu)建人工智能數(shù)據(jù)集存在的問(wèn)題和策略建議
當(dāng)前在人工智能數(shù)據(jù)集的獲取和標(biāo)注方面仍存在四個(gè)方面的問(wèn)題。一是在元數(shù)據(jù)獲取層面,企業(yè)出于自身利益考慮,難以實(shí)現(xiàn)真正的數(shù)據(jù)共享,而且某些特殊領(lǐng)域的數(shù)據(jù)獲取和使用是否合規(guī)合法存在很大的爭(zhēng)議。二是數(shù)據(jù)標(biāo)注行業(yè)仍是被具體政策支撐忽視的死角,人工智能相關(guān)政策和社會(huì)關(guān)注點(diǎn)主要集中在算法、應(yīng)用、芯片方面,針對(duì)數(shù)據(jù)標(biāo)注和眾包市場(chǎng)的政策支撐和社會(huì)關(guān)注較少。三是第三方眾包平臺(tái)市場(chǎng)仍處于發(fā)展初期的野蠻生長(zhǎng)狀態(tài),缺乏相關(guān)行業(yè)管理規(guī)范和行業(yè)自律精神,有可能會(huì)發(fā)生一些損害客戶利益的情況,如對(duì)眾包數(shù)據(jù)進(jìn)行二次轉(zhuǎn)售等。四是目前大型企業(yè)對(duì)自有數(shù)據(jù)的保護(hù)意識(shí)越來(lái)越強(qiáng),但是目前眾包平臺(tái)主要由人工智能科技企業(yè)建設(shè),不存在與其他眾多人工智能科技企業(yè)完全沒(méi)有利害關(guān)系的第三方眾包平臺(tái)。
針對(duì)構(gòu)建人工智能數(shù)據(jù)集存在的問(wèn)題,特提出策略建議。一是進(jìn)一步加強(qiáng)頂層規(guī)劃設(shè)計(jì)和體系化布局,完善配套措施,加快相關(guān)政策落地,通過(guò)政策手段促進(jìn)人工智能數(shù)據(jù)在企業(yè)間的共享和合理化使用。同時(shí)加強(qiáng)數(shù)據(jù)標(biāo)注和眾包市場(chǎng)的政策支撐,提高社會(huì)關(guān)注度。二是推動(dòng)人工智能數(shù)據(jù)領(lǐng)域相關(guān)管理規(guī)范的制定和落實(shí),加強(qiáng)行業(yè)自律精神建設(shè),建立投訴機(jī)制,保障企業(yè)數(shù)據(jù)安全。三是建議在國(guó)家層面統(tǒng)籌人工智能行業(yè)資源數(shù)據(jù)集建設(shè),探索以政府?dāng)?shù)據(jù)開(kāi)放為牽引、龍頭數(shù)據(jù)為基礎(chǔ)、行業(yè)數(shù)據(jù)合作驅(qū)動(dòng),由無(wú)利益關(guān)系的第三方維護(hù)數(shù)據(jù)集并建設(shè)數(shù)據(jù)眾包平臺(tái)。